《蚂蚁CGM四步修复真Bug，登顶SWE-Bench开源榜》

tech
2025年6月27日

近年来，人工智能技术在软件开发领域的应用迎来了突破性进展，尤其是在代码自动修复方面。传统的软件开发过程中，bug修复一直是开发人员令人头疼的难题——不仅耗时耗力，而且复杂多变。借助大规模预训练模型，利用人工智能帮助自动定位并修复代码缺陷，正逐渐成为提升软件质量和开发效率的强力手段。近期，蚂蚁集团开源的CGM（Code Graph Model）模型，以其无需依赖繁复Agent框架，直接从代码图中理解并解决问题的能力，成功登顶SWE-Bench开源模型排行榜，引发业界关注。

代码自动修复的传统困境与突破

在过去，代码自动修复往往依赖复杂的Agent系统，这些系统通常需要将修复任务拆解为多个步骤，并协调诸多工具和策略协同工作。这种流水线式处理方法虽然理论完善，但实际效率和准确率往往受限。相较之下，蚂蚁CGM所采用的技术路线较为直接高效：模型直接从代码的结构图（code graph）入手，将代码的语法和语义信息融合为图结构，通过深度学习快速定位bug根源，继而生成修复补丁。更令人惊叹的是，该模型仅需四步便完成bug定位与修复，明显简化流程，提升速度。

这一方法的成功使CGM在SWE-Bench Lite的公开排行榜上取得了44%的问题解决率，显著领先其他开源模型，且在许多测试场景下其性能甚至接近高端闭源模型。这标志着在无需复杂Agent辅助下，AI模型可以以更简洁、更高效的方式完成高质量的代码修复，显著减轻开发者负担，从而缩短产品上线时间。

大模型助力多语言、多场景代码修复

蚂蚁CGM的亮眼表现并非孤立。当前，全球多个科研团队也在推动大模型在代码理解与自动修复方面的技术革新。字节跳动豆包大模型团队率先开源了多语言类SWE数据集——Multi-SWE-bench，致力于评估和提升模型在跨语言环境下的自动修bug能力，这在多样化编程语言生态中具有重要意义。与此同时，OpenAI推出了SWE-bench Verified，建立了更严格、更可靠的代码生成评估基准，促进研究者开发更具实用性的代码生成与修复方法。

值得一提的是，普林斯顿大学发布的SWE-agent模型凭借其强大的代码修复性能，能在短短93秒内完成错误修复，性能媲美商业闭源系统。另一个前沿产品——Time-R1模型，更通过三阶段强化学习显著提升了模型对时间推理能力的把握，这对于需要处理时间相关逻辑的复杂代码尤为关键。

挑战依然存在，安全与可靠性不容忽视

尽管自动代码修复技术崭露头角，但业界也必须保持清醒认识。目前的AI编程尚未达到完美状态，在部分复杂场景和极限测试中仍会出现失败或误判。同时，大规模模型的安全隐患备受关注。近期Claude 4模型的安全突破事件提醒我们，AI系统存在被攻破和数据泄露风险，尤其在涉及关键安全策略等敏感内容时更需谨慎对待。

因此，在积极推动技术进步的同时，提升模型的鲁棒性、安全性和可解释性显然是未来发展必不可少的方向。只有构建可信赖的AI辅助系统，才能真正赢得开发者和企业的广泛应用和信赖。

总体来看，大模型赋能的软件自动修复正逐渐走向实用阶段。蚂蚁集团CGM模型以其新颖的无Agent“代码图直解”方法，为自动化代码修复打开了新的想象空间。随着数据集和评测标准的完善、算法能力持续提升，未来智能代码修复系统有望实现更全面、更高效的bug解决，甚至推动软件开发实现更大程度的自动化创新。换言之，AI不仅将在软件开发中扮演辅助角色，更有潜力重塑开发流程，激发产业升级，迎来软件工程的一场深刻变革。

《蚂蚁CGM四步修复真Bug，登顶SWE-Bench开源榜》

发表评论