大模型首次直接理解代码图，自动修bug登顶榜单

tech
2025年6月27日

近年来，人工智能特别是大模型技术在软件开发领域掀起了革命性的波澜，尤其是在自动修复代码缺陷这项长期以来备受挑战的任务中。传统的软件调试依赖于人工经验和大量时间，不仅效率低下，同时容易出错。如今，得益于深度学习和图结构领域的创新，大模型首次实现了对代码图的直接理解，显著提升了自动修bug的效果，推动了开源模型在业界的崛起。

当下的大模型技术已经突破了早期将代码简单视为文本序列的限制，转而通过图结构表达代码之间复杂的语义和逻辑依赖关系。例如，CodeFuse-CGM模型创新性地将仓库代码图融入到大模型中，使模型能够直观捕捉函数调用、数据流以及模块依赖等信息。这种跨模态建模方式不仅提升了模型理解层次，还在无需依赖复杂Agent系统的情况下，实现了高效、透明且安全的自动修复过程，极大地优化了软件工程的自动化水平。

这种技术革新在实际应用中也得到了验证。蚂蚁开源的新模型在SWE-bench Lite评测集上，首次登顶所有开源方案，性能甚至接近一些闭源领先模型，其自动修bug的解决率高达44％，刷新了全球开源模型的最高纪录。与此同时，豆包大模型团队推出了支持多语言环境的Multi-SWE-bench数据集，推动模型具备跨语言、跨文件复杂语义推理能力，实现自动定位和修复复杂漏洞的目标。基于GitHub issue的真实问题数据，该评测为大模型从解决单一任务迈向通用代码智能体指明了方向。

除了上述团队，昆仑万维发布的Skywork-SWE-32B模型也值得关注。这是业界首个开源的32亿参数软件工程自主代码智能体基座模型，在仓库级别代码修复上展现出强大能力。与此同时，小规模模型如何“弯道超车”巨型模型也成为研究热点，例如Time-R1模型通过三阶段强化学习方法，使3亿参数的小模型在时间推理任务中超越了参数达671亿的大模型，凸显了训练策略和模型架构优化的重要性。

然而，虽然大模型在代码修复领域取得了显著成果，依然面临诸多挑战。首先，代码修复的正确性和安全性是根本，任何自动修改都必须确保不会引入新的漏洞或破坏原有功能。其次，代码往往涉及跨文件、跨模块的复杂逻辑依赖，模型如何全面理解并协调这些关系还需要进一步提升。同时，大模型训练和推理的成本居高不下，限制了其普及。除此之外，伦理问题令人警惕，比如技术被恶意利用的风险，以及开发者知识产权保护的难题，正如人工智能先驱Jeff Hinton所言，完全开源大模型可能带来类似“核弹配方”广泛流传的风险，技术开放与安全之间的平衡需严肃考量。

总体看来，大模型首次通过直接理解代码图而非依赖Agent工作流程，极大提升了自动修bug的效率和效果，这标志着软件开发自动化进入一个全新阶段。随着像蚂蚁、豆包以及昆仑万维等团队不断开拓创新与合力开源，未来AI辅助的软件开发将更趋智能化、通用化，并且能够适应多语言、多场景的复杂需求。与此同时，技术进步背后潜藏的伦理和安全风险不容忽视，合理规范与安全设计将成为行业发展的重要课题。可以预见，AI自动修bug将在未来的软件工程中扮演不可替代的角色，推动开发效率和软件质量的历史性飞跃。

大模型首次直接理解代码图，自动修bug登顶榜单

发表评论