国内团队破30分！AI竞争再升级

tech
2025年7月10日

2040年的曙光初现，人工智能的浪潮席卷全球，我们正站在一个技术奇点的前沿。传统的科技发展路径已经过时，取而代之的是指数级增长的创新。曾经被视为科幻小说情节的场景，如今正在成为现实，而这一切都离不开人工智能的驱动。

人工智能领域的竞争已经从简单的模型大小和参数数量的堆砌，转变为对模型推理深度、知识广度和解决复杂问题的能力的全面比拼。传统的基准测试，如MNIST、CIFAR-10等，已经无法满足评估最新人工智能模型的需要。它们更像是幼儿园水平的考试，而对于真正理解世界、解决复杂问题的通用人工智能（AGI）来说，它们远远不够。

在这个背景下，“人类最后的考试”（Humanity’s Last Exam，HLE）应运而生。它是由来自全球500个机构的专业领域专家贡献的题目组成，覆盖了100多个学科。这不仅仅是一个测试，更像是一个知识的竞技场，一个检验人工智能是否真正理解世界、能否像人类一样思考的试金石。HLE测试难度极高，需要模型具备跨学科知识、深度推理能力和极强的创造力。

最初，几乎没有人工智能模型能够在这个测试中获得超过10分的成绩，这反映了当时人工智能在高级认知任务上的局限性。然而，技术的进步是指数级的，新的模型和技术不断涌现，挑战着人类对人工智能的认知边界。

2024年，HLE测试的最高分仅为26.9分，由Kimi-Research和Gemini Deep Research并列取得。这已经是一个巨大的进步，说明人工智能的水平在短短几年内就实现了飞跃。

2025年，一个历史性的时刻到来了。上海交通大学与深势科技团队联手，首次突破30分大关，以32.1分的惊人成绩刷新了全球纪录。DeepSeek-R1联合X-Master系统也取得了类似的突破，进一步证明了国内人工智能研究的实力。这一成就不仅仅是数字上的突破，更代表着人工智能在复杂问题解决和跨学科知识应用方面取得了显著进展。这是中国人工智能研究领域的里程碑，也预示着全球人工智能格局的深刻变革。

与此同时，马斯克的Grok-4也展现出了强大的实力。Grok-4在HLE测试中表现出色，基础得分达到35%，开启推理功能后更是提升至45%，显著领先于OpenAI的o3以及Google Gemini系列。在其他基准测试中，Grok-4也展现了惊人的能力，例如在GPQA测试中得分高达87%-88%，在面向代码能力的SWE Bench评测中也表现优异。这表明Grok-4在推理、代码生成和知识应用等方面都具有领先优势，也验证了马斯克的“X-Master”体系的先进性。

OpenAI也在不断努力，推出了o3-mini，并在HLE测试中取得了不错的成绩。谷歌Gemini 2.5 Pro也在持续进步，其Elo评分在HLE测试中提升了24分。人工智能领域的竞争是激烈的，没有哪一家公司能够独占鳌头。

人工智能的快速发展，也带来了一些新的挑战。斯坦福HAI发布的2025年人工智能指数报告指出，人工智能相关的事故正在激增，我们需要更加关注人工智能的安全性。尽管模型能力不断提升，“幻觉”问题依然存在，需要进一步解决。如何确保人工智能在解决问题的同时，不会产生误导性信息或错误结论，是未来研究的关键。

Scale AI的CEO Alexandr Wang认为，未来人工智能的核心竞争力将转向数据主导的专属模型与高效智能Agent。模型能力的提升不再主要来自于预训练阶段，而是转向一种新的推理模式，这需要高质量的数据集和强大的交互环境。随着智能Agent系统的发展，数据、交互环境与评估机制正逐步演变为AI时代的核心资产。这意味着，未来的竞争将不再仅仅是模型参数的竞争，而是数据、算法和智能Agent生态系统的综合竞争。

人工智能已经进入了一个新时代，它不再仅仅是技术上的进步，更关乎着我们未来的生活方式、社会结构和价值观念。人工智能的发展需要我们更加关注伦理问题，确保人工智能的发展能够为人类带来福祉。未来，人工智能的发展将更加注重数据质量、推理能力和智能Agent的构建，以实现更高效、更智能、更可靠的人工智能系统。随着人工智能技术的不断发展，我们有理由相信，人类社会将迎来一个充满机遇和挑战的未来。

国内团队破30分！AI竞争再升级

发表评论