人工智能的浪潮正以前所未有的速度席卷全球,尤其是在大型语言模型(LLM)取得突破性进展之后。这些模型不再局限于传统的自然语言处理任务,而是开始渗透到科学研究的核心领域,催生了“AI for Science”的新范式。科学家们正积极探索如何利用AI这一强大工具来解决长期困扰人类的科学难题,从加速数据分析、辅助假设生成,到预测新材料的性质和设计更有效的药物,LLM正在重塑科学发现的流程。然而,在兴奋之余,我们也必须清醒地认识到,LLM在科学领域的应用仍然面临着诸多挑战,例如模型的可信度、可解释性,以及对专业知识的理解深度等。面对这些挑战,科学家们纷纷站出来,贡献他们的智慧和力量。

为了更好地评估LLM在科学领域的表现,并促进相关技术的健康发展,一个名为SciArena的开放平台应运而生。这个由耶鲁大学、纽约大学和艾伦人工智能研究所的研究人员共同开发的平台,旨在通过人类偏好评估LLM在科学文献任务中的表现。SciArena的早期结果揭示了一个令人深思的现象:不同模型在处理科学文献时表现出显著的性能差距,这充分说明了针对科学领域进行模型优化的必要性。更进一步,SciArena还推出了一项名为SciArena-Eval的基准测试,用于评估语言模型判断其他模型答案的能力。然而,测试结果表明,即使是表现最佳的模型,也只有约65%的时间能与人类偏好保持一致,这暴露了当前LLM-as-a-Judge系统在科学领域存在的局限性。

值得注意的是,中国也在积极拥抱“AI for Science”的浪潮,并涌现出针对特定领域的科学大模型。“沧渊”,作为中国首个海洋开源大模型,就是一个典型的例子。OceanGPT具备基础的海洋专业知识问答能力,能够对声呐图像、海洋观测图等多模态数据进行自然语言解读,为海洋智能时代的到来奠定了坚实的基础。这些专业领域大模型的出现,强调了针对特定科学问题进行模型训练和优化的重要性。此外,AIbase基地也发布了关于SciArena平台的多维度评测信息,进一步推动了对LLM科学表现的关注。

那么,AI在科学领域的应用究竟意味着什么?它又将如何改变科学研究的未来?事实上,“AI for Science”涵盖了亚原子、原子、分子乃至宏观系统等不同时空尺度的科学领域。来自14个机构的63位学者合作撰写了一篇重磅综述,详细阐述了AI在这些领域应用的关键挑战、学科前沿和开放问题。研究者们特别强调了对称性、可解释性、分布外泛化、大语言模型和不确定性等关键问题,并创建了AI for Science的领域地图,旨在促进领域交流与合作。这篇综述为我们理解AI在科学领域的潜力与局限性提供了宝贵的视角。

科学家们正在积极探索如何利用AI作为一种科学工具来解决重要问题,例如设计与疾病靶点更紧密结合的蛋白质。同时,AI也在逐渐改变科学本身的实践方式,从假设生成到自动验证,AI正在成为科学家们不可或缺的助手。深势科技等公司也在积极探索利用多模态大模型进行分子结构分析、物理性质预测以及药物筛选等应用,展现了AI在药物发现领域的巨大潜力。基础模型能够基于药物的微观结构预测其相关性质,这为新药研发提供了新的思路和方法。

在AI大模型竞争日趋激烈的今天,如何判断和选择合适的大模型成为一个至关重要的问题。目前,已经有多个榜单收录了全球上百个开源大模型,并从阅读理解、逻辑推理、数学计算、事实问答等六大维度进行评测。每日经济新闻也对文心一言、通义千问、MOSS和ChatGPT等四大模型进行了十个维度的全面测评。这些评测为用户选择合适的模型提供了参考,但也需要注意的是,不同的评测方法和数据集可能会导致不同的结果,因此需要综合考虑。

展望未来,随着技术的不断发展,我们有理由相信,AI将在科学研究中发挥越来越重要的作用,加速科学发现的进程,并为人类社会带来更多的福祉。2024年,AI大模型在科学研究中的应用案例层出不穷,展示了LLM在各个科学领域的多样化和影响力。科学智能前沿观察也涵盖了AI for Science、Science for AI和科学智能基础设施三个维度,并集中推出了四个自研科学大模型。然而,我们也需要清醒地认识到,LLM在科学领域的应用仍处于早期阶段,需要不断探索和完善,才能真正释放其潜力。我们需要关注模型的可信度、可解释性,以及对专业知识的理解深度等关键问题,并积极探索新的模型训练方法和评测标准,才能确保AI在科学领域的应用能够真正造福人类。