近年来,人工智能技术迅猛发展,尤其是在大规模预训练模型领域取得了突破性进展。这些模型凭借出色的性能表现,受到全球科技巨头的高度关注与投入。作为中国科技实力的领军企业,华为近日发布的“昇腾+Pangu Ultra MoE”训练系统,成功实现了准万亿参数级别的Mixture-of-Experts(MoE)模型训练。这一成果不仅证明了国产AI硬件与软件的强大实力,还展现了华为在构建自主可控计算生态方面的坚定决心,具有深远的战略价值。

华为此次发布的“昇腾+Pangu Ultra MoE”训练系统,是国产算力深度融合的典范。系统整合了昇腾Atlas 800T A2万卡集群,并结合一系列自主研发的软件框架及算法优化方案,实现了从芯片设计到完整训练流程的端到端闭环管理。基于国产昇腾NPU(神经网络处理单元),该系统摆脱了传统对GPU的依赖,充分发挥了国产算力的潜力。其万卡级集群展现了极高的集成度和通信效率,集群单元资源利用率(MFU)达41%,显著提升了算力的整体发挥效率。

在模型训练过程中,华为借助MindSpeed、Megatron与vLLM等先进的分布式训练框架,融合自有通信策略和调度优化技术,大幅提升了超大规模MoE模型的训练速度与资源利用率。MoE模型通过专家模块的动态激活机制,有效缓解了大模型参数数量激增带来的计算瓶颈问题,这不仅加快了训练节奏,也提高了推理精准度和效率。

昇腾NPU芯片的性能突破是华为此次成果的关键。经过多代迭代,昇腾系列NPU在计算能力、能耗效率、内存带宽等方面实现了世界级水平。在此次准万亿参数模型训练中,昇腾所具备的高速互连总线、异构计算能力及自主研发的AI驱动架构发挥了核心作用。同时,通过昇腾CANN 7.0平台的深度优化,计算效率和模型推理性能进一步提升。值得一提的是,华为通过创新的超节点技术,突破了AI训练的瓶颈,支持业界最大规模的384卡高速总线互联,实现了无GPU支持环境下仅2秒完成一道高等数学题的壮举。这不仅彰显了国产算力的国际竞争力,也表达了中国在高性能AI计算领域迈出的坚实步伐。

自主可控和国产化生态建设成为华为布局的战略重点。在全球供应链和芯片出口受限的复杂环境下,华为完成了从芯片设计、集群搭建到软硬件协同优化、模型训练的全链条中国方案。此次突破不仅是技术上的创新,更为基于国产算力的应用奠定了坚实基础。国内权威大模型排行榜SuperCLUE数据显示,华为盘古Ultra MoE系列在千亿参数级别国产大模型中表现出色,排名稳居国内前列,体现了昇腾算力与大模型研发的高度融合。此外,华为正加快推动生成式推荐模型DeepSeek等多款大模型的研发与产业落地,促进理论研究与实际应用的有机结合。昇腾NPU结合AI云服务的高效部署,有望引领AI产业升级,激发各行业的数字化转型潜能。

展望未来,华为的“昇腾+Pangu Ultra MoE”无GPU超大模型训练能力,为全球AI算力领域提供了中国方案。随着昇腾算力的持续攀升以及大模型规模和复杂度的不断增加,如何在参数规模、训练速度与推理效率之间找到最佳平衡,实现产业生态的开放兼容,将是华为及国产AI发展的关键挑战。国产AI技术自主化进程的不断推进,不仅提升了国家战略安全,也推动了创新动力的释放。软硬件深度融合将加速国产AI生态系统的质变,催生越来越多智能化应用,助力数字科技步入新时代,开启中国乃至全球人工智能发展的新篇章。