人工智能(AI)技术的飞速发展正在引发新一轮的科技变革,而算力作为这一变革的核心驱动力,其重要性愈发突出。近年来,随着大规模AI模型的问世,算力需求激增,催生了一场全球范围内的算力竞赛。尤其以“万卡集群”为代表的超大规模GPU集群正在成为突破AI性能瓶颈的关键,而国产“十万卡”算力集群的建设标志着中国在这一领域的实力迈上新台阶。

全球科技巨头如OpenAI、微软、xAI和Meta等,纷纷投入巨资打造超十万卡规模的GPU集群,这不仅是技术实力的象征,更是一场关乎国家竞争力的战略较量。数据显示,这些集群单单服务器成本就高达数十亿美元,反映出算力基础设施建设背后的巨大投入与野心。在这场竞赛中,中国没有缺席,反而积极布局智算中心,加速推进国产“十万卡”集群的落地进程。2024年,中国的智算中心建设进入全面提速阶段,国产万卡集群项目正快速推进,凸显中国算力实力日益强大。

“万卡集群”成为AI发展重要门槛的原因在于其卓越的计算能力。业内普遍认为,单单拥有1万枚NVIDIA A100芯片的算力,就足以支撑大规模AI模型训练的基础需求,而十万卡集群则代表更高阶的算力层次,能够支持更庞大、更复杂的深度学习模型训练。以甘肃亿算为例,其计划投资55亿元建设纯国产的十万卡算力集群,预计2027年底前投入使用,彰显了国内推动算力基础设施自主化、规模化的决心。此外,中国移动也已启动国产万卡集群建设,发布了全球最大运营商智算中心,进一步加强了国产算力生态的建设。

构建超大规模的算力集群,硬件只是基础。围绕“万卡集群”的生态环境也在逐步完善。AI基础设施企业如基流科技,不仅支撑了多个智算集群的建设和调优,累计算力已超过40EFLOPs,还推动了十万卡级别仿真及未来算力架构设计的研发,体现出国内企业在算力架构创新方面的迅猛追赶。同时,中国推行的全调度以太网(GSE)技术,在“孟菲斯超级集群”上的应用,实现了智算中心网络性能的显著提升,这对于应对万卡乃至十万卡规模集群的高网络带宽和低延迟要求至关重要。

然而,智算中心的快速发展亦面临不容忽视的挑战。一方面,大模型应用场景尚未完全成熟,导致极端规模的算力资源利用率偏低,存在一定资源浪费风险。另一方面,随着集群规模攀升,保证GPU集群的稳定运行和网络性能成为重要课题。业内专家如GMI的Cloud King Cui强调,保障GPU集群的稳定性是AI企业必须迎刃而解的难题。DeepSeek团队在网卡可扩展性和容错能力上的探索,也表明了面对未来万卡乃至十万卡级别集群网络需求的积极准备。

国产“十万卡”集群项目的技术意义不仅限于规模的扩大,更在于打破国外技术垄断,实现自主可控。本次计划在庆阳建造的国产十万卡算力集群,将全部采用国产芯片和自主架构,这一举措对提升中国AI产业链的自主创新能力具有划时代的影响。央企率先实现纯国产GPU万卡集群的突破,也昭示着中国正加快实现核心技术自主的步伐,为国内AI创新输送动力。

整体来看,国产“十万卡”算力集群的落地不仅是规模上的升级,也代表了中国在AI核心算力领域的技术积累和产业生态成熟的体现。从硬件的大规模投入,到生态环境的全面完善,再到面向未来的技术攻关和自主研发,中国正构筑起一个完整而强大的AI算力基础设施体系。这场全球算力竞赛不仅将促进我国AI技术水平的整体跃升,更有望为全球智能科技的发展注入新的动力。中国在智算“万卡”时代站稳脚跟,未来的人工智能科技版图,无疑将更加丰富多彩。