H100提速：无需CUDA，新作引爆关注！

tech
2025年7月13日

在人工智能的飞速发展时代，算力已成为推动技术革新的核心驱动力。我们正经历着一个对计算资源需求呈指数级增长的时期，这直接推动了高性能计算（HPC）的崛起。高性能计算，尤其是GPU在深度学习领域的应用，已经成为人工智能研究和实际应用中不可或缺的基础设施。英伟达的H100 GPU，凭借其卓越的计算能力和架构优势，成为了众多AI研究者和企业争相追逐的焦点。然而，如何充分发挥H100的潜力，挖掘其隐藏的算力极限，一直是业界关注的焦点。长期以来，CUDA C++凭借其对GPU硬件的底层控制能力，被认为是编写高性能GPU内核的“金标准”。但现在，这一局面正在被改写，一场关于HPC编程范式的变革正在悄然发生。

加速时代的编程新范式

传统的CUDA C++开发模式，虽然能够提供对GPU硬件的精细控制，但也伴随着开发难度高、学习曲线陡峭等问题。对于非底层硬件专家而言，要编写出能够充分利用H100性能的CUDA代码，需要耗费大量的时间和精力。而现在，一种全新的开发范式正在崛起，它抛弃了对CUDA的依赖，转而拥抱更现代、更简洁的编程语言和工具，例如Python和领域特定语言（DSL）。

QuACK：Python与CuTe-DSL的完美结合

一个极具颠覆性的突破，来自于Flash Attention的共同作者Tri Dao及其普林斯顿大学的团队。他们推出了一款名为QuACK的新内核库。QuACK的核心创新在于完全摒弃了传统的CUDA C++编程模式，转而采用Python和CuTe-DSL进行开发。CuTe-DSL，一种基于Python的领域特定语言，为开发者提供了更加便捷和高效的工具。它允许开发者以更高级别的抽象方式来描述计算任务，而无需深入了解CUDA的底层细节。这意味着，开发者可以更专注于算法逻辑，而非底层的硬件优化。

QuACK的性能表现令人惊叹。在H100显卡上，QuACK实现了比PyTorch中的torch.compile和Liger等库快33%到50%的速度，这充分证明了即使不依赖CUDA，也能充分挖掘H100的性能潜力。这一突破性的成果，不仅降低了高性能计算的门槛，也为更多的开发者提供了参与AI创新浪潮的机会。

对现代加速器架构的深刻理解

QuACK的成功并非偶然，而是建立在对现代加速器架构的深刻理解之上。Tri Dao强调，内存密集型内核的高效运作并非神秘的“黑科技”，而是建立在对线程与内存层级结构的精细雕琢之上。CuTe-DSL能够更轻松地实现对硬件资源的优化配置，让开发者能够根据硬件特性，精准地控制数据在内存中的布局和访问方式。QuACK采用了一种名为SOL的内存绑定内核库，进一步提升了数据访问效率，从而实现了卓越的性能表现。这种对硬件架构的深刻理解，辅以更友好的编程工具，是QuACK能够取得如此优异成绩的关键。

不止于QuACK：多方探索与AI赋能

除了QuACK之外，其他研究也在探索无需CUDA的代码加速H100的可能性。斯坦福大学的研究团队开源了ThunderKittens库，同样旨在简化GPU内核的编写过程，并实现高性能。ThunderKittens的特点在于其简单性、可扩展性和速度，它使得一些原本复杂的任务变得易于实现，从而在现代硬件上实现了更高的利用率。更有甚者，AI技术本身也被用于生成CUDA内核，并且生成的代码性能甚至超越了人类专家优化后的结果。这预示着，AI正在成为加速GPU计算的强大工具，为未来的高性能计算发展带来了新的机遇。Flash Attention作者Tri Dao的团队在H100上的最新成果，将H100的FLOP利用率提升至75%，相比上一代产品实现了1.5到2倍的速度提升，进一步证明了这种趋势。

上述案例共同展现了一个清晰的趋势：高性能计算正朝着更易于访问、更高效的方向发展。借助更现代化的编程工具，开发者能够更轻松地发挥GPU的潜力。

随着人工智能技术的持续发展，对计算资源的需求将持续增长。新型编程工具的出现，降低了高性能计算的门槛，为更多的开发者参与AI创新提供了机会。未来，我们可以期待更多创新的解决方案涌现，进一步推动H100等高性能GPU的应用，为人工智能的进步注入新的动力。这场HPC编程范式的变革，预示着一个更开放、更高效、更智能的计算时代的到来。

H100提速：无需CUDA，新作引爆关注！

发表评论