人工智能领域的竞争,如同无垠星空中闪烁的璀璨星辰,日趋激烈且充满活力。 新的评估标准与强大的模型如雨后春笋般涌现,不断推动着技术边界的拓展,让人类的智能边界在逐渐模糊与重塑。 最近,“人类最后的考试”(Humanity’s Last Exam,简称HLE)的基准测试,以其极高的难度与严苛的评估标准,引发了全球范围内的广泛关注,也成为了衡量人工智能系统能力的“终极封闭式学术基准”。

HLE 测试集由来自全球500个机构的专业领域专家贡献,包含了3000道涵盖数学、人文科学和自然科学等上百门学科的问题。最初,几乎所有的人工智能模型都难以在此测试中获得超过10分的成绩,这充分证明了其对人工智能系统在复杂推理和跨学科知识应用方面的严峻考验。 然而,在这一场“人类最后的考试”中,中国人工智能团队展现出了强大的实力,取得了令人瞩目的突破。

上海交通大学与深势科技团队联手,利用X-Master系统,首次在HLE中突破30分大关,以32.1分的成绩刷新了全球纪录。此前,全球最高分仅为26.9分,由Kimi-Research和Gemini Deep Research并列取得。 这一突破性进展,不仅是对中国人工智能技术实力的肯定,也象征着中国在复杂推理和跨学科知识应用方面取得了重要里程碑式的成就。 这也预示着,中国人工智能在全球人工智能的竞争格局中,正扮演着越来越重要的角色,为全球人工智能的发展贡献着自己的力量。 在早期的大模型竞技场上,DeepSeek-R1的表现也十分出色,曾一度领先于其他模型,成为首个突破1400分的模型,也充分展现了中国人工智能团队的强大实力。

HLE的出现,引发了关于人工智能评估标准的热烈讨论。 传统的评估方法往往侧重于特定领域的性能,例如图像识别、语音处理或自然语言生成等。 然而,HLE 强调对跨学科知识的综合运用和深度推理能力。 这种强调对综合能力的评估,使得HLE成为一个更加全面且严苛的评估标准。

在HLE的严峻挑战下,全球各家顶尖的人工智能团队都在积极寻求突破,不断提升自身模型的性能。 其中,马斯克的Grok-4的表现引人瞩目。 Grok-4在基础测试中取得了35%的得分,开启推理功能后进一步提升至45%。 这一成绩远超OpenAI的o3以及Google Gemini系列,展现了其强大的竞争力。

除了HLE之外,Grok-4在其他基准测试中也表现出色。 例如,在GPQA测试中,Grok-4得分达到了87%-88%,在面向代码能力的SWE Bench评测中也取得了优异成绩。 这说明Grok-4在多模态推理、代码生成、知识应用以及解决复杂问题的能力方面都具备了强大的实力。

此外,谷歌Gemini 2.5 Pro也推出了新版本,其在HLE中Elo评分提升了24分,展现了其持续的进步和优化。 这预示着人工智能领域的竞争将更加激烈,各家公司都将不断迭代和优化自己的模型,以期在竞争中占据优势。

人工智能的快速发展,也对评估标准提出了更高的要求。 传统的评估方法,难以全面衡量人工智能的真实能力。 随着技术的进步,人工智能不仅需要处理特定任务,更需要具备综合的知识储备和推理能力。 因此,对人工智能能力的评估需要不断创新。

斯坦福大学HAI发布的2025年人工智能指数报告,从多个角度分析了人工智能的发展现状和趋势。 在这份报告中,DeepSeek被提及45次,充分体现了其在人工智能领域的影响力。 报告还深入分析了人工智能硬件发展状况、推理成本以及人工智能论文发表和专利申请趋势。这些信息为人工智能的未来发展提供了重要的参考。

随着智能Agent系统的发展,人工智能时代的核心资产正在发生转变。 数据、交互环境和评估机制,成为了新的竞争焦点。 企业若能将自身独有的业务流程抽象为高质量数据集,并构建可支持强化学习的智能Agent,将能够在未来的竞争中占据优势。 Scale AI的CEO强调,未来核心竞争力将转向数据主导的专属模型与高效智能Agent。 这预示着,人工智能的发展将更加注重个性化和定制化,以满足不同行业和用户的特定需求。 随着时间的推移,拥有高质量数据集和强大Agent的公司,将更有可能在人工智能的浪潮中脱颖而出。

HLE的出现以及各模型在此测试中的表现,不仅推动了人工智能技术的进步,也引发了对评估标准和未来发展方向的深度思考。 中国团队在HLE中取得的突破,以及Grok-4等模型的优异表现,都预示着人工智能正在朝着更加智能、更加通用的方向发展。 随着技术的不断创新和应用场景的不断拓展,人工智能将持续为人类社会带来更加深远的影响。 未来,人工智能将在科学研究、医疗健康、教育、金融、交通等多个领域发挥重要作用,深刻地改变我们的生活方式,推动社会进步。