近年来,人工智能的浪潮席卷全球,其中,大语言模型(LLM)的崛起无疑是这场变革中最引人注目的焦点。LLM正以前所未有的速度重塑着人机交互的模式,从智能客服到内容创作,其应用场景不断拓展,深刻地影响着我们的生活和工作。然而,高速发展的同时,LLM也面临着算力需求高、训练成本昂贵等严峻挑战,这些挑战制约着其进一步的普及和应用。为了打破这些瓶颈,一种创新的模型架构——混合专家模型(MoE)应运而生,并迅速成为大模型领域的研究热点。MoE架构通过巧妙地利用多个“专家”协同工作,在不显著增加计算量的前提下,极大地提升了模型的容量和性能,为大模型的未来发展开辟了新的道路。
在探索MoE技术的道路上,以蚂蚁集团为代表的国内人工智能领军企业,积极投身其中,持续开源相关模型,为推动AI技术的普及和发展做出了重要贡献。蚂蚁集团对MoE技术的探索,源于对算力瓶颈的深刻认识。传统的密集模型,在参数规模增大后,计算量会呈指数级增长,导致训练和推理成本急剧上升,使得大规模模型的训练和部署变得异常困难。MoE架构通过将模型拆解为多个“专家”,每个专家负责处理不同类型的输入,从而巧妙地解决了这一难题。这种架构的优势在于,虽然模型的总参数规模很大,但在实际推理过程中,只有少数几个“专家”会被激活,从而大大降低了计算量,提高了效率。
蚂蚁集团的Ling团队在《Every Flop Counts: Scaling 3000B Parameter Mixture-of-Experts Language Model with No Advanced GPU》论文中,详细阐述了无需高级GPU即可扩展3000亿参数混合专家LING大模型的方法。这项研究成果不仅证明了MoE架构在降低计算成本方面的巨大潜力,也为其他研究者提供了宝贵的参考经验。随后,蚂蚁集团开源了百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus)两款MoE模型,进一步加速了MoE技术在国内的普及。其中,Ling-Lite参数规模为168亿,但有效激活参数仅为27.5亿,充分展示了MoE架构在降低计算成本方面的优势。通过只激活部分参数,Ling-Lite在保证模型性能的同时,显著降低了计算资源的需求,使得更多开发者能够有机会体验和使用大规模语言模型。
在Ling-Lite的基础上,蚂蚁技术团队持续优化,推出了Ring-lite模型。Ring-lite以Ling-lite-1.5为起点,同样采用MoE架构,总参数为16.8B,但激活参数仅为2.75B。该模型在多项推理榜单上取得了显著成绩,实现了轻量级推理模型的SOTA效果,再次验证了MoE架构的推理潜力。更重要的是,蚂蚁集团将Ring-lite开源,使得更多开发者和研究者能够受益于这一技术突破,共同推动MoE技术的发展。除了算法层面的创新,蚂蚁集团还积极探索国产AI芯片在训练大模型中的应用。通过AI Infra技术,他们成功利用国产AI芯片训练大模型,将计算成本降低约20%,进一步降低了AI技术的门槛,为国内AI产业的自主可控发展做出了贡献。这种软硬件协同优化的策略,不仅降低了训练成本,也提高了训练效率,为未来的大规模模型训练提供了新的思路。
蚂蚁集团在MoE技术的应用方面也进行了积极探索。除了通用语言模型,他们还将MoE技术应用于更广泛的领域。Ling-Coder-Lite是一款基于MoE架构的代码大语言模型,能够将推理效率提升1.5至2倍,成为代码生成和处理领域的新突破点。代码大模型在软件开发领域具有巨大的应用潜力,可以自动生成代码、进行代码补全、检测代码错误等,极大地提高开发效率。为了支持Ling-Coder-Lite的开发,蚂蚁集团还开源了用于退火训练的SyntheticQA、用于后训练SFT和DPO共计约3000个数据,为代码大模型的开发提供了丰富的资源。更进一步,蚂蚁集团于2025年5月27日宣布开源统一多模态大模型Ming-lite-omni,该模型支持理解和生成模型合在一起调用或单独完成任务,具有全模态输入和输出能力,被业界视为首个在模态支持方面能够与GPT-4o相媲美的开源模型。Ming-lite-omni的开源,标志着蚂蚁集团在多模态大模型领域取得了重要进展,并为AI技术的应用拓展了更广阔的空间,预示着AI技术将在图像、语音、文本等多模态数据处理方面发挥更大的作用。多模态大模型的出现,将进一步模糊人机交互的界限,使得机器能够更好地理解和响应人类的需求。
蚂蚁集团在MoE大模型领域的持续投入和开源贡献,不仅推动了国内AI技术的发展,也为全球AI社区带来了宝贵的资源和经验。从Ling-Lite到Ring-lite,再到Ming-lite-omni和Ling-Coder-Lite,蚂蚁集团不断探索MoE架构的潜力,并将其应用于不同的应用场景,展现了其强大的技术实力和创新能力。这些开源模型和数据集,为其他研究者和开发者提供了宝贵的学习资源和实践机会,促进了整个AI生态系统的繁荣发展。展望未来,随着MoE技术的不断成熟和完善,以及国产AI芯片的不断发展,我们有理由相信,蚂蚁集团将在人工智能领域取得更大的突破,为构建更加智能、便捷、高效的未来贡献力量。MoE架构的持续发展,将带来更加轻量级、高效的大规模模型,使得AI技术能够更好地服务于社会,推动各个领域的智能化升级。最终,这将创造一个更加美好的未来,让人类生活更加便捷、高效和充满可能性。
发表评论