H100提速：无需CUDA，新作引爆关注！

tech
2025年7月14日

近年来，人工智能领域的指数级发展，尤其是大型语言模型（LLM）的崛起，以前所未有的规模推动了对计算资源的需求。这不仅催生了对更强大硬件的渴望，也驱动了对现有硬件进行更高效利用的探索。高性能计算（HPC）硬件，特别是英伟达的H100 GPU，成为了训练和部署这些庞大模型的核心。然而，传统的GPU编程模式，长期以来依赖于CUDA C++，却成为了限制创新速度和降低开发门槛的瓶颈。

对CUDA的挑战正在加速到来。

首先， 新型编程范式的兴起。

传统的CUDA编程需要开发者精通底层硬件细节，并编写复杂的CUDA C++代码，这无疑增加了开发时间和门槛。最近，Flash Attention的共同作者Tri Dao与普林斯顿大学的两位博士生联合推出的QuACK内核库，标志着一场针对这一挑战的革命。QuACK的核心创新在于完全摆脱了对CUDA C++代码的依赖，转而采用Python和CuTe-DSL进行开发。CuTe-DSL是一种领域特定语言，旨在简化GPU内核的编写过程。这种方法不仅降低了GPU编程的门槛，使得更多开发者能够参与到高性能计算的优化工作中，而且在H100显卡上的性能表现也令人瞩目。与PyTorch中的torch.compile和Liger等经过深度优化的库相比，QuACK实现了33%到50%的速度提升。更令人兴奋的是，这种性能提升并非源于简单的优化，而是源于对现代加速器线程与内存层级结构的深入理解，以及对特定细节的精细雕琢。这意味着，通过更聪明地利用硬件资源，我们可以极大地提高现有硬件的效率。Tri Dao的观点更是明确，他认为让内存密集型内核达到“光速”并非遥不可及，关键在于对底层硬件的充分利用。

其次， 对现有技术的颠覆与超越。

QuACK并非孤军奋战。越来越多的研究团队正在探索绕过CUDA的优化路径，尝试绕过CUDA的诸多限制。DeepSeek团队的研究就是一个很好的例子，他们通过优化数据加载和存储方式，成功提升了大模型的性能，其成果甚至可以被视为某种程度上“绕过了CUDA”。斯坦福大学开源的ThunderKittens框架，仅用百行代码就能使H100的FlashAttention-2性能提升约30%。这些案例共同揭示了一个重要的趋势：在高性能计算领域，并非只有CUDA C++才是唯一的选择。通过创新性的软件工具和编程范式，开发者可以更有效地利用GPU硬件资源，实现性能的显著提升。英伟达CUTLASS团队的资深成员Vijay对QuACK的创新表示高度赞扬，认为CuTe-DSL的设计极大简化了GPU高效运行的实现过程。PyTorch团队的Horace He也对此表示关注，预示着未来PyTorch可能会整合类似的技术。此外，CUDA本身也面临着来自开源社区的挑战。尽管CUDA最初由英伟达开发，但开源社区的贡献者正在努力通过收集详细的CUDA代码，使其能够支持非英伟达芯片，从而为GPU生态的多样化提供了可能性。这种多样化可能导致未来的竞争，加速创新，并最终使所有用户受益。

最后， 生态系统的变革与未来展望。

除了技术层面的突破，生态系统也在发生深刻的变化。微软宣布将在2025年终止其公共Bing Search API服务，这促使开发者积极寻找替代方案，间接推动了对非CUDA加速方案的探索。开发者们开始寻找更加开放、更灵活的解决方案，这加速了对新的编程范式和工具的需求。Tri Dao在Mamba领域取得的另一项成就也值得关注。他的最新研究表明，H100 GPU的利用率从之前的35%提升到75%，使得大型语言模型的训练和运行速度提升了1.5到2倍。这再次证明，即使在现有的硬件平台上，通过精细的优化和创新的方法，我们也能显著提高性能。QuACK的出现，结合其他相关研究的进展，标志着GPU编程领域正在发生深刻变革。摆脱对CUDA C++的依赖，降低编程门槛，提高开发效率，将成为未来GPU优化的重要趋势。随着更多创新工具和技术的涌现，我们可以期待H100等高性能GPU的潜力被进一步挖掘，为人工智能的发展注入更强大的动力。未来的科技蓝图将呈现出GPU编程的多元化，更易于访问，更注重效率，也更具包容性。

H100提速：无需CUDA，新作引爆关注！

发表评论