H100提速：无需CUDA，新作引爆关注！

tech
2025年7月13日

近年来，人工智能的迅猛发展，对计算硬件提出了前所未有的严苛要求。深度学习模型的复杂性、数据量的激增，推动着高性能计算的需求呈指数级增长。GPU，凭借其强大的并行计算能力，成为深度学习训练和推理的主力军。而英伟达的CUDA编程接口，凭借其成熟的生态系统和优异的性能，长期占据着GPU编程的主导地位，构筑了一道难以逾越的技术壁垒。然而，技术的世界总是充满着变革的机遇。一系列新兴研究成果和技术突破正在悄然挑战这一传统，预示着GPU编程范式的潜在变革。开发者们正在探索无需CUDA代码，也能充分释放H100等高端GPU潜力的全新路径。

首先，让我们聚焦于Flash Attention共同作者Tri Dao及其团队的最新研究成果——QuACK内核库。 QuACK的诞生，无疑是这一趋势的代表。它的核心在于完全摒弃了传统的CUDA C++代码，转而使用Python和CuTe-DSL（一种领域特定语言）进行开发。这种转变意味着什么？它意味着开发者们不再需要深陷底层的硬件细节，无需耗费大量精力去编写和调试复杂的CUDA代码。CuTe-DSL作为一种抽象工具，简化了GPU内核的编写过程，使得开发者能够将精力集中于算法逻辑的设计和优化。而令人惊讶的是，QuACK在H100显卡上的性能表现超越了PyTorch的torch.compile和Liger等优化库，实现了33%到50%的显著性能提升。

Tri Dao的这项研究揭示了一个重要事实：内存密集型内核的高效运行，并非遥不可及。它依赖于对现代加速器线程与内存层级结构的深入理解和精细雕琢。通过巧妙的算法设计和高效的DSL工具，即使绕过CUDA，也能充分挖掘H100的强大潜力。QuACK的成功，不仅为开发者提供了新的选择，也为我们展示了未来GPU编程的一种可能：更加高效、便捷，也更具灵活性。这种可能性，在一定程度上打破了英伟达CUDA的垄断，促进了GPU编程生态系统的多样化发展。

其次，除了QuACK之外，斯坦福大学的研究人员也带来了令人振奋的成果——ThunderKittens AI加速框架。同样，ThunderKittens也无需CUDA代码即可实现对GPU性能的提升。借助这项技术，仅需百行代码，就能让H100的性能提升高达30%。ThunderKittens的核心在于简化AI内核的编写，并充分利用底层硬件能力，例如张量核心、异步数据传输和共享内存。研究人员从“硬件实际需要什么？如何满足这些需求？”这两个根本问题出发，设计了一个嵌入式CUDA DSL工具。通过操作小型张量块（tile），开发者可以更轻松地编写高效的代码。这种方法，不仅降低了开发难度，还显著提高了硬件利用率。 ThunderKittens的成功，证明了即使是相对简单的代码，只要能够充分利用底层硬件特性，也能实现性能的巨大飞跃，甚至超越了直接使用底层库（如Cutlass）的效果。

ThunderKittens的案例，再次强调了GPU编程的未来趋势：更易用、更高效。它展现了通过更简洁的工具和更深入的硬件理解，释放GPU潜力的可能性。这种方法，有助于降低AI领域的门槛，让更多的研究人员和开发者能够参与到高性能计算的世界中。

最后，值得关注的是，这一系列突破并非孤立事件。整个GPU编程领域，正呈现出积极的变化。一些初创公司正在积极探索绕过CUDA的替代方案，例如通过在AMD卡上模拟CUDA，实现原版程序的直接运行。此外，开源CUDA项目也在社区的努力下起死回生，并支持非英伟达芯片。这些尝试，预示着对CUDA依赖的逐渐减弱，GPU编程领域正在朝着更加开放和灵活的方向发展。Flash Attention的后续版本，如FlashAttention-2和第三代更新，也在持续优化H100 GPU的利用率，速度提升显著，甚至达到了A100上理论最大FLOPS的50%-73%。这进一步证明了，在不依赖CUDA的情况下，持续优化和提升GPU性能是完全可行的。

这些技术突破，具有深远的影响。首先，它们降低了GPU编程的门槛，使得更多的开发者能够参与到高性能计算领域。其次，它们打破了对CUDA的垄断，促进了GPU编程生态系统的多样化，为硬件厂商提供了更大的创新空间。最后，它们推动了GPU硬件的充分利用，为人工智能应用的加速提供了新的可能性，降低了训练和推理的成本，推动了AI技术的快速发展。随着这些技术的不断成熟和普及，我们有理由相信，未来的GPU编程将更加高效、便捷和开放，推动人工智能技术走向更广阔的应用前景。

H100提速：无需CUDA，新作引爆关注！

发表评论