H100提速：无需CUDA，新作引爆关注！

tech
2025年7月13日

近年来，人工智能（AI）的迅猛发展以前所未有的速度推动着计算需求的增长。特别是在大型语言模型（LLM）的训练和推理过程中，对计算资源提出了严峻的挑战。这场“算力竞赛”的核心，落在了高性能计算（HPC）硬件，尤其是图形处理器（GPU）之上。英伟达（Nvidia）的H100 GPU，凭借其强大的计算能力，成为了AI领域炙手可热的“明星”。然而，如何充分发挥H100的潜力，降低训练和推理的成本，成为了研究者和工程师们共同关注的焦点。围绕着这一核心问题，一场旨在榨干H100最后一滴性能的探索正在进行，新的技术，新的框架，以及新的编程范式，层出不穷。

这场探索的核心，体现在对现有计算框架的不断挑战和创新上。长期以来，CUDA C++一直是GPU编程的主流语言，它为开发者提供了强大的底层控制能力。然而，CUDA C++的学习曲线陡峭，开发效率相对较低，也限制了一部分开发者进入AI加速的领域。近期，一个名为QuACK的新内核库的出现，为打破CUDA C++的垄断带来了新的曙光。QuACK的最大特点在于，它完全摆脱了对CUDA C++的依赖，转而采用Python和CuTe-DSL（Composable Tensor Expressions）进行开发。这一转变并非简单的语言替换，而是对GPU编程范式的彻底革新。CuTe-DSL的设计，使得开发者能够专注于算法的优化，而无需深入了解底层的硬件细节，从而大大降低了开发门槛，提高了开发效率。实验结果也证明了QuACK的优越性：在H100显卡上，QuACK实现了比PyTorch中的torch.compile和Liger等库快33%到50%的速度提升。这一显著的性能提升，不仅仅是数字上的进步，更代表着一种新的开发理念和技术路径的可能性。

QuACK并非孤军奋战，而是AI加速领域持续创新浪潮中的一部分。此前，Flash Attention的作者Tri Dao也加入了QuACK项目，进一步提升了项目的技术实力。Flash Attention系列，特别是第三代，针对H100 GPU的新特性进行了优化，在之前的基础上实现了1.5倍到2倍的速度提升，比PyTorch上的标准注意力操作快5到9倍，甚至达到了A100上理论最大FLOPS的50%到73%。Tri Dao在AI加速领域的杰出贡献，以及Flash Attention的优异表现，为QuACK的成功提供了强有力的背书。除了QuACK和Flash Attention之外，其他研究团队也在积极探索提升H100利用率的方法。例如，斯坦福大学的研究人员开源了ThunderKittens，一个只需百行代码就能让H100提速30%的AI加速框架。这些成果都表明，通过对算法和硬件的深入理解，以及对现有框架的巧妙利用，仍然存在巨大的性能提升空间。这种对极致性能的追求，反映了AI领域在计算效率方面的不懈努力。

值得关注的是，硬件厂商也在积极参与这场“算力竞赛”。英伟达自身发布了H200芯片，性能较H100提升了60%到90%，并保持了兼容性。AMD也推出了Instinct MI300X GPU，直接对标英伟达H100，为市场带来了新的竞争。这种竞争，将推动硬件性能的快速提升，为AI技术的进步提供更强大的基础。除了硬件的迭代，软件层面的优化也在不断涌现。一些初创公司正在尝试通过模拟CUDA的方式，在AMD卡上运行原版CUDA程序，为用户提供更多的选择。这些努力，都为AI领域带来了更多的可能性。然而，在追求极致性能的同时，我们也应该关注硬件的稳定性、可靠性以及能源效率。例如，Llama3.1训练过程中平均每3小时就会出现一次故障，这凸显了万卡集群在运行大型模型时的脆弱性。大规模AI模型的训练，对硬件的可靠性提出了极高的要求。

总而言之，QuACK的出现代表着AI领域在GPU编程方面的一次重要突破，它提供了一种全新的思路和工具，证明了无需CUDA代码也能实现高性能计算，降低了开发门槛。随着AI技术的不断发展，对计算资源的需求将持续增长。通过不断创新算法、优化框架和探索新的硬件架构，我们有望进一步提升H100等高性能GPU的利用率，加速AI技术的普及和应用。未来，我们期待看到更多类似的创新成果。例如，我们可以预见到：

更智能的编译优化： 编译器将会变得更加智能，能够自动地优化代码，以充分利用GPU的硬件特性。未来的编译器将不仅仅是代码转换器，更像是“算法医生”，能够深入理解算法的本质，并提出更优化的实现方案。
模块化、可组合的AI框架： 类似于CuTe-DSL这样的工具，将会在AI框架中变得越来越普及。这种模块化的设计，使得开发者可以更容易地组合不同的算法，进行快速的原型设计和实验。
异构计算架构的普及： 未来的计算平台将更加多样化，包括GPU、CPU、TPU、以及新型的专用加速器。AI框架将能够更好地支持异构计算，让开发者能够根据不同的任务选择最佳的硬件。
面向硬件的算法设计： 随着对硬件的深入理解，算法设计将会更加注重硬件的特性。未来的算法将会更加“原生”，能够更好地利用GPU的并行计算能力。
更加重视能源效率： 随着AI模型的规模越来越大，能源消耗也成为了一个重要的问题。未来的AI技术将会更加注重能源效率，例如，通过更智能的调度，来最大限度地降低能源消耗。

我们相信，通过持续的创新，AI领域将会迎来更加美好的未来。

H100提速：无需CUDA，新作引爆关注！

发表评论