H100提速：无需CUDA，新作引爆关注！

tech
2025年7月13日

随着人工智能技术的飞速发展，对计算硬件提出了前所未有的挑战。训练和推理大型模型需要强大的算力支撑，而英伟达的H100 GPU，作为当前最强大的AI加速器之一，无疑是其中的关键。长期以来，CUDA C++一直是编写高性能GPU内核的首选语言。然而，一场新的技术变革正在悄然兴起——无需CUDA代码，也能显著提升H100的加速性能。

这场变革的核心在于对硬件架构的深入理解和更高级别的软件抽象。传统的CUDA编程虽然强大，但学习曲线陡峭，需要开发者具备深厚的硬件知识和编程技巧。这种高门槛限制了更多开发者参与高性能计算的领域。如今，新型工具和技术的涌现，正在打破CUDA的垄断，为AI开发带来了新的可能性。

新型SOL内存绑定内核库QuACK的崛起

近年来，由Flash Attention和Mamba作者之一Tri Dao及其团队开发的QuACK新型SOL内存绑定内核库，无疑是这一趋势的杰出代表。令人惊讶的是，QuACK完全使用Python和CuTe-DSL编写，没有一行CUDA C++代码。这一创新打破了传统的编程范式，在H100显卡上实现了令人瞩目的加速效果，相比于PyTorch中的torch.compile和Liger等优化库，性能提升高达33%-50%。

QuACK的成功并非偶然，它源于对现代加速器架构的深刻理解和巧妙利用。Tri Dao强调，深入理解加速器的线程与内存层级结构是提升性能的关键。CuTe-DSL作为一种Python基础的领域特定语言，为开发者提供了更高级别的抽象，简化了GPU高效运行的实现过程。这种抽象使得开发者可以专注于算法本身，而无需过多关注底层的硬件细节，从而提高了开发效率。

QuACK的出现，预示着未来AI开发将朝着更简单、更高效的方向发展。它降低了GPU编程的门槛，使得更多开发者能够参与到高性能计算的领域中来，推动了硬件和软件的协同创新。QuACK的成功也得到了业界的广泛认可，英伟达CUTLASS团队的资深成员Vijay对QuACK的创新表示高度赞扬，并预告了更多相关精彩内容即将问世。PyTorch团队的Horace He也表达了对QuACK的关注，这预示着未来PyTorch可能会集成类似的优化技术。

绕过CUDA：新兴趋势的另一种体现

除了QuACK之外，DeepSeek-R1的出现也引发了关于CUDA绕过的讨论。有报道指出，DeepSeek-R1似乎在某种程度上绕过了CUDA，这进一步证明了在特定场景下，并非必须依赖CUDA才能实现高性能计算。虽然具体的技术细节尚未完全公开，但这一现象无疑为AI加速带来了新的想象空间。

类似地，斯坦福大学的研究人员开源了一个名为ThunderKittens的库，仅用百行代码就能显著提升H100的性能。ThunderKittens的特点在于其简单性、可扩展性和速度，它使得一些原本复杂的GPU优化任务变得易于实现，从而在现代硬件上实现了更高的利用率。这表明，即使是简单的工具，也能在高性能计算领域发挥巨大的作用。

Flash Attention的持续迭代与未来展望

Flash Attention的持续迭代也为无需CUDA的加速趋势提供了有力支撑。其第三代更新专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升，达到了A100上理论最大FLOPS的50～73%，实际训练速度可达225。Flash Attention的成功，源于其对加速器架构的深入理解和精细的优化。通过不断迭代和优化，Flash Attention在H100上实现了接近理论峰值的性能，这证明了在没有CUDA的情况下，同样可以实现卓越的性能表现。

这种无需CUDA代码加速H100的趋势，对整个AI生态系统具有深远的影响。它降低了GPU编程的门槛，促进了硬件和软件的协同创新，并推动了AI编程模式的变革。腾讯元宝上线AI编程模式，也体现了行业对更智能、更便捷的AI开发工具的需求。未来，随着技术的不断进步，我们有理由相信，将会有更多创新的解决方案涌现，进一步释放H100的潜力，推动人工智能的蓬勃发展。未来，AI开发的生态将会更加开放和多元化，会有更多的开发者能够参与到高性能计算领域，推动AI技术的快速发展和应用。

H100提速：无需CUDA，新作引爆关注！

发表评论