在全球人工智能技术飞速发展的时代,我们正站在一个技术变革的十字路口。人工智能不仅渗透到我们生活的方方面面,也在深刻地改变着世界的格局。其中,对人工智能能力进行准确评估的必要性日益凸显。而“人类最后的考试”(Humanity’s Last Exam,简称HLE),作为一个旨在衡量AI在人类知识前沿真实能力的基准测试,正成为衡量AI发展水平的重要标尺。HLE测试的出现,不仅推动了AI技术的进步,也引发了人们对AI发展方向的深入思考。

HLE测试的核心在于其极高的难度。它包含3000个精心设计的问题,涵盖数学、人文科学、自然科学等上百门学科,旨在考察AI的深度推理能力和广泛的知识储备。这些问题并非简单地依赖互联网搜索就能解答,而是需要AI真正理解和应用知识。

一开始,几乎所有AI模型在HLE上的表现都令人沮丧。在测试中,模型的正确率普遍低于10%,这表明即使是在特定任务上表现出色的LLM,在面对需要真正理解和应用知识的复杂问题时,也面临着巨大的挑战。这种结果引发了人们对AI能力边界的重新审视,以及对AI“过度自信”现象的关注。许多模型在给出错误答案的同时,却表现出极高的置信度,这凸显了AI在知识理解和自我评估方面的不足。

然而,近期的一个重大突破改变了这一局面。

首先,中国AI技术的崛起展现了强大的创新能力。由上海交通大学与深势科技团队联手打造的模型,在HLE测试中取得了32.1分的惊人成绩,首次突破了30分大关,刷新了历史记录。此前,最高分仅为26.9分,由Kimi-Research和Gemini Deep Research并列取得。这一突破性的进展,不仅是中国AI研究的重大成就,也为全球AI发展注入了新的活力。更值得关注的是,这种进步并非单一团队的胜利,而是多方协作、共同推动的结果。Sakana AI与上海交大/深势科技团队展示了多模型/多智能体协作的巨大潜力,X-Master系统更是将AI在HLE中的得分推向了新的高度。而DeepSeek-R1推理模型的出色表现,其类人的深度思考能力引发了广泛关注,并在数学和编程领域取得了重大进展。多元推理模型o3-mini(high)的准确率也飙升至37%,进一步证明了推理能力在提升AI整体性能中的关键作用。

其次,全球AI竞争格局正在加速演变。美国正在积极吸引和挖掘中国AI人才,顶级AI专家正逐渐“统治”硅谷AI圈。这种人才争夺战,预示着AI技术竞争将进入一个更加激烈的阶段。与此同时,各国政府也纷纷加大对人工智能基础设施的投资,例如启动价值数十亿美元的国家人工智能基础设施计划,以支持AI发展所需的能源扩容,这无疑将加速AI技术的进步和普及。这种对人才和基础设施的投入,预示着AI竞争将进入一个更加激烈的阶段。除了技术本身的进步,人们对AI工具的稳定性、可交付性等实际应用价值的关注度也在提升。

最后,顶尖AI厂商也在积极应对挑战,努力提升模型性能。OpenAI也在积极应对挑战,通过升级ChatGPT,引入深度搜索功能,并提升模型的推理能力,试图在HLE等基准测试中取得更好的成绩。Grok 4的跑分成绩也显示了其在HLE上的潜力,基础得分达到35%,开启推理功能后更是提升至45%,显著领先于其他模型。这表明,头部AI厂商正在持续投入资源,致力于提升其模型的综合性能,以应对日益激烈的市场竞争。

综上所述,HLE测试的出现和不断被刷新,标志着AI评估标准正在向更高、更严苛的方向发展。中国AI研究团队在HLE上的突破,展现了中国AI研究的实力和潜力。全球AI竞争的加剧,以及对AI实际应用价值的关注,都将推动AI技术不断进步,并最终影响着我们未来的生活和工作方式。人工智能的未来,是一幅充满挑战和机遇的画卷,而HLE这样的测试,则为我们提供了一个窥探未来图景的窗口。随着技术的不断进步,我们有理由相信,人工智能将会在各个领域发挥更大的作用,为人类社会带来更深远的影响。