近年来,人工智能技术迅猛发展,尤其是大规模预训练模型的兴起,大幅推动了算力需求和模型规模的不断攀升。作为中国科技领域的先锋企业,华为近日宣布了一项重大突破——基于其自主研发的“昇腾+Pangu Ultra MoE”系统,成功实现了接近万亿参数级别的稀疏专家模型(MoE)训练。这一系统不仅高效完成复杂计算任务,更能够在无需依赖GPU的情况下,短短2秒内破解一道高等数学题,彰显了中国在AI算力和大模型训练技术上的领先地位,并对全球AI生态产生了深远影响。
华为此次重大成果的核心,在于其基于昇腾系列芯片构建的国产算力平台。昇腾AI计算平台与Pangu Ultra MoE模型紧密协同,形成了集算力硬件、算法框架和模型训练于一体的深度融合体系。这种全流程国产自主可控的设计,突破了传统GPU依赖的训练桎梏,为中国AI算力体系注入了新的活力。具体而言,华为昇腾Atlas 800T A2集群的模型利用率(MFU)达到41%,明显高出业内平均水平,确保了千万亿级参数模型在训练时的高效迭代和快速响应。这样的算力利用率不仅提升了训练速度,也为复杂大规模模型的稳定运行提供了强有力保障,有效支撑了AI技术创新的基础设施建设。
在模型架构和训练方法方面,华为采用了领先的技术手段来应对超大规模模型的挑战。基于MindSpeed、Megatron及vLLM等多种先进框架的优化组合,“昇腾+Pangu Ultra MoE”打造出具备高效稀疏激活特性的MoE系统。这种稀疏专家模型通过激活部分专家子网络,有效降低资源消耗,实现训练和推理效率的双重提升。为了保证超大规模数据(超过18TB)长时间稳定训练,华为自主研发了Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法,这些创新极大提高了模型的收敛性和训练稳定性。此外,模型预训练与强化学习后续阶段的加速技术,也在泛化能力和任务适应性方面表现卓越,使得模型具备更加广泛的应用潜力。
华为不仅在理论和算法层面实现突破,针对AI训练的实际环境也进行了多项优化。大规模模型训练过程中,长时间停机和单点故障一直是行业痛点。华为凭借昇腾平台引入了断点续传机制,显著缩短训练恢复时间——在ResNet-152模型训练中恢复时间不足2分17秒,这大幅减少了算力资源浪费和训练中断带来的不确定性。同时,软件层面的持续升级也为硬件能力的发挥提供了坚实支持。通过CANN 7.0等框架的更新,昇腾硬件与主流AI框架如MindSpore的兼容性和易用性得到显著提升,进一步优化了模型训练流程与开发体验。
这项突破不仅刷新了业界对大规模AI模型底层算力的认识,还展示了中国在人工智能自主创新道路上的雄心和潜力。通过无GPU训练方案实现近万亿参数级别模型的快速训练和推理,华为极大降低了相关成本并提升效率,为国产算力体系迈入全球主流行列奠定了坚实基础。在当今全球AI竞争激烈的背景下,这一成就无疑将推动更多行业的智能化转型和创新应用,加快人工智能技术的普及和发展。未来,随着技术和生态体系不断完善,依托高效、可控且国产化的训练方案,人工智能将在更多领域释放潜力,注入新的发展动力,书写中国科技产业新的辉煌篇章。
发表评论