人工智能的飞速发展,尤其是大型语言模型(LLM)的兴起,正以前所未有的速度重塑着科技格局。然而,这场技术革命并非没有挑战。日益增长的算力需求与模型效率之间的矛盾,如同悬在达摩克利斯之剑,时刻考验着研究人员和开发者的智慧。解决这一矛盾,不仅关乎技术的进步,更关乎人工智能的可持续发展和广泛应用。在这种背景下,混合专家模型(MoE)应运而生,它以其独特的架构和优势,为大模型的发展开辟了一条新的道路。MoE通过稀疏激活机制,在保持甚至提升模型性能的同时,显著降低了计算成本,使其成为当前大模型领域备受瞩目的焦点。
蚂蚁集团无疑是这场MoE技术浪潮中的积极参与者和推动者。近年来,蚂蚁集团在MoE领域持续投入,并积极拥抱开源,一系列开源模型的发布,不仅展示了其在该领域的显著进展,也为整个行业注入了新的活力。这些努力不仅加速了技术创新,也促进了人工智能生态的繁荣。
稀疏激活与高效计算的融合
蚂蚁集团的技术突破,可以追溯到对MoE架构的深入研究。早在今年3月初,蚂蚁集团Ling团队就发表了题为《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》的论文报告,这一报告的核心在于探索如何在有限的算力资源下,训练和部署更大规模的模型。随后,他们开源了两款不同规模的MoE大语言模型——百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus)。Ling-Lite拥有168亿参数,但有效激活的参数仅为27.5亿,而Ling-Plus则拥有高达2900亿的参数规模,激活参数达到288亿。这种设计理念的核心在于稀疏激活机制:在模型推理过程中,并非所有参数都被激活,而是根据输入选择性地激活一部分“专家”网络,从而大幅降低计算成本。这意味着,即使拥有庞大的参数规模,实际参与计算的参数数量仍然相对较少,从而实现了在保证模型性能的同时,降低计算资源消耗的目标。后续,蚂蚁集团持续优化模型,并推出了Ring-lite,这款模型是在Ling-lite-1.5模型的基础上进一步优化的轻量级MoE推理模型,在数学、编程及科学领域推理任务中表现出色,甚至在高考数学全国一卷上能够获得130分左右的成绩,充分证明了其在特定领域的强大推理能力。这种轻量级、高性能的MoE模型,为大模型在资源受限环境下的应用提供了新的可能性。
多模态融合与全方位交互的探索
为了进一步提升模型的能力,蚂蚁集团还将目光投向了多模态领域。在2025年5月27日的蚂蚁技术开放日上,蚂蚁集团宣布开源统一多模态大模型Ming-lite-omni。这款模型支持理解和生成模型合在一起调用,也可以单独完成理解和生成任务,实现了全模态输入和输出,为用户带来了原生全模态交互体验。Ming-lite-omni基于Ling-lite构建的MoE架构,总参数22B,激活参数3B,在多项理解和生成能力评测中,性能与10B量级领先的多模态大模型相媲美。这表明,通过MoE架构,即使是参数规模相对较小的模型,也能实现与更大规模的模型相媲美的性能,这无疑为多模态大模型的轻量化和高效化提供了一种可行的解决方案。Ming-lite-omni的开源,不仅丰富了多模态大模型的选择,也为开发者提供了更多探索多模态交互的可能性。此外,蚂蚁集团还开源了代码大模型Ling-Coder-Lite,该模型基于MoE架构,能够将推理效率提升1.5至2倍,为代码生成和处理领域带来了新的突破。这意味着MoE架构不仅适用于通用语言模型和多模态模型,也同样可以应用于特定领域的模型,并显著提升其性能。
自主可控与开源生态的构建
值得一提的是,蚂蚁集团在降低大模型训练成本方面也取得了重要进展。通过AI Infra技术,Ling Team团队利用国产AI芯片训练大模型,将计算成本降低了约20%。这一举措不仅降低了研发成本,也体现了蚂蚁集团对国产AI芯片的支持和信心。在当前国际形势下,自主可控的AI基础设施显得尤为重要,蚂蚁集团的这一举措,无疑为推动国产AI芯片的发展和应用起到了积极的示范作用。同时,蚂蚁集团还开源了用于退火训练的SyntheticQA、用于后训练SFT(Supervised Fine-tuning)和DPO(Direct Preference Optimization)共计约3000个样本,进一步推动了开源社区的发展。这些开源资源的发布,不仅降低了开发者的门槛,也促进了技术的交流和共享,从而推动了整个行业的进步。蚂蚁集团的实践表明,通过开源和合作,可以加速人工智能技术的创新和应用,构建一个更加繁荣和可持续的生态系统。
蚂蚁集团在MoE大模型领域的探索和实践,为行业发展提供了宝贵的经验和借鉴。从Ling-Lite到Ring-lite,再到Ming-lite-omni和Ling-Coder-Lite,蚂蚁集团不断推出新的开源模型,并在模型架构、训练方法和硬件选择等方面进行创新,有效降低了计算成本,提升了模型性能。这些努力不仅推动了人工智能技术的进步,也为构建更加智能、高效和可持续的未来奠定了坚实的基础。未来,随着技术的不断发展,我们有理由相信,MoE架构将在大模型领域发挥越来越重要的作用,而蚂蚁集团也将继续在这一领域发挥重要作用,为行业带来更多惊喜,并推动人工智能技术更好地服务于社会。更进一步,这些进展预示着未来的智能体将更加高效、通用,能够在更广泛的场景下应用,最终实现真正的人工通用智能(AGI)。
发表评论