算力科学领域正经历一场深刻变革,这场变革的核心驱动力是高性能计算(HPC)与人工智能(AI)的融合。几十年来,HPC一直是科学发现的引擎,通过密集的模拟和数据分析来解决复杂问题。传统上,这涉及开发数学模型,通常以微分方程的形式表达,然后利用计算能力来求解或估计解决方案。然而,AI的出现,特别是生成式AI和大语言模型(LLM),不仅仅是为HPC增添了另一个工具;它正在从根本上改变解决问题的方法,创造一种新的范式,在这种范式中,AI增强甚至指导HPC工作流程。这种转变并非没有挑战,但潜在的好处——加速创新、提高效率以及解决以前难以解决的问题的能力——是巨大的。

HPC与AI的融合正在以多种关键方式体现出来。一个重要的发展是AI增强的HPC,其中AI模型接受现有数据的训练,例如模拟的天气模式或真实世界的观测数据。这个训练阶段可能需要数周或数月的时间,从而创建一个能够通过推理快速提供新场景解决方案的模型。这与传统的HPC有所不同,在传统HPC中,每个查询都需要一个完整的模拟。像LUMI-AI这样的系统,一个继LUMI系统之后的新型AI专用超级计算机,证明了对这种方法的具体承诺,它利用下一代GPU来加速AI工作负载。此外,对AI能力的需求正在影响整个HPC市场,根据Hyperion Research的数据,2024年的支出增加了36.7%,超过600亿美元。这种增长不仅是由科学研究推动的,也是由更广泛的企业创新格局推动的。

然而,实现HPC-AI全部潜力的道路并非一帆风顺。一个关键问题是供应链。对先进技术(尤其是GPU)的快速需求超过了供应量,超大规模计算公司通常消耗了全部供应。这给寻求HPC-AI解决方案的研究人员和组织带来了挑战,可能阻碍进展。另一个挑战在于AI模型的可持续性和可扩展性。训练GPT-4和Gemini等大型模型需要巨大的计算资源和能源消耗,引起了人们对环境影响的担忧。HPC和AI的未来还需要解决精度问题,特别是在将AI技术应用于需要不同精度水平的经典模拟时。此外,与更广泛的行业相比,HPC领域内代码共享有限,这给协作开发和创新带来了障碍,正如对LASSI流程的研究重点指出的那样。AI模型生成误导性相关性的可能性,正如哮喘和肺炎风险的例子所证明的那样,强调了仔细验证和理解模型局限性的重要性。

展望未来,HPC和AI的融合预示着科学发现和技术进步的新时代。自主HPC系统的发展,加上agentic AI,预示着未来HPC基础设施可以自我优化并适应不断变化的工作负载,从而进一步提高效率和可扩展性。由HPC、大数据和AI加速驱动的发现良性循环已经开始,生成式AI正在推动对计算资源的需求激增。利用AWS EC2 P3等基础设施模型的国家研究云等计划正在为研究人员提供必要的工具和资源。ALCF黑客马拉松专注于优化Aurora和Polaris超级计算机的科学代码,这体现了释放这些技术全部潜力的合作努力。最终,未来不是AI *对抗* HPC,而是AI *增强* HPC,创造一种协同关系,这将重新定义计算的可能性界限。2024年HPC-AI市场的蓬勃发展,SC24的创纪录出席人数以及Top500榜单上的新第一名,表明了持续的增长和创新轨迹,尽管2025年是否会保持这一势头仍有待观察。