H100提速：无需CUDA，新作引爆关注！

tech
2025年7月13日

人工智能的浪潮正以前所未有的速度席卷全球，而这场浪潮的核心驱动力，无疑是计算能力。大模型，作为人工智能领域中最引人注目的应用之一，对计算能力的需求达到了前所未有的高度。高性能计算硬件，尤其是英伟达的GPU，成为了这场竞赛中的关键武器。长期以来，英伟达的H100系列GPU凭借其强大的算力，在人工智能领域占据着主导地位。然而，如何更有效地利用这些昂贵的硬件资源，提升计算效率，成为了摆在研究人员和工程师面前的首要问题。

近年来，一个名为QuACK的新内核库的出现，引发了行业内的广泛关注。它在英伟达H100显卡上实现了显著的加速效果，令人惊讶的是，它完全没有使用传统的CUDA C++代码。这一突破性的进展，预示着GPU编程领域正在发生深刻的变化，为人工智能技术的进一步发展提供了新的动力。

首先，QuACK的出现，颠覆了传统的GPU编程范式。由Flash Attention的共同作者Tri Dao与普林斯顿大学的两位博士生联合开发的QuACK，采用了一种全新的编程方法。他们利用Python和CuTe-DSL（领域特定语言）构建了这一内核库。CuTe-DSL的设计理念是简化GPU高效运行的实现过程，让开发者能够更专注于算法逻辑，而无需深入了解底层的CUDA细节。这种方法极大地降低了GPU编程的门槛，使得更多开发者能够参与到GPU加速的开发中来。测试结果显示，QuACK在H100显卡上实现了比PyTorch中的torch.compile和Liger等库快33%到50%的性能提升。这意味着，即使不直接使用CUDA代码，开发者也能够充分挖掘H100的潜力，实现卓越的性能。这种转变具有深远的意义，它意味着GPU编程不再仅仅是少数精通CUDA C++的专家才能触及的领域，而是向更广泛的开发者开放，从而加速了人工智能技术的创新和发展。

其次，QuACK的成功并非孤立事件，它反映了人工智能领域对更高效、更易用的加速工具的迫切需求。事实上，在QuACK之前，已经有其他研究表明，通过优化算法和利用硬件特性，可以在不依赖CUDA的情况下实现显著的性能提升。例如，斯坦福大学的研究人员开发的ThunderKittens AI加速框架，仅用百行代码，就能够在H100上实现比FlashAttention-2更高的性能，提升幅度高达30%。ThunderKittens的成功，进一步证明了通过巧妙的设计和优化，即使是相对简单的代码，也能在现代GPU上发挥出强大的计算能力。此外，DeepSeek公司研发的R1模型也引发了关于硬件优化和软件协同的深入讨论，展现了绕过CUDA的可能性。这些案例表明，业界正在积极探索新的、更有效率的GPU加速方法，旨在降低开发难度，提高性能，进一步推动人工智能技术的进步。这些努力正在促使我们重新思考如何利用硬件资源，优化算法，以及构建更高效、更易用的加速工具。

最后，持续的优化和对硬件特性的深入理解是提升计算效率的关键。Flash Attention本身就在不断进化。Flash Attention-3的发布，专门针对H100 GPU的新特性进行了优化，在之前的基础上又实现了1.5倍到2倍的速度提升。Mamba作者Tri Dao的持续探索，也推动了FlashAttention系列性能的不断提升，使其成为大模型训练和推理领域的重要加速工具。Tri Dao本人也强调，内存密集型内核的高效运作并非遥不可及的秘密，而是基于对特定细节的精细雕琢，以及对现代加速器的线程与内存层级结构的深入理解。这意味着，随着硬件的不断发展，对现有算法的持续优化，以及对硬件特性的深入理解，将是提升计算效率的关键。未来，我们将看到更多针对特定硬件优化的算法和工具出现，从而充分发挥硬件的潜力，推动人工智能技术的进一步发展。这需要开发者不仅精通算法和编程，还需要对硬件的内部结构和工作原理有深入的了解。

QuACK内核库的出现，以及其他相关研究的进展，预示着GPU编程领域正在发生深刻的变化。传统的CUDA编程模式虽然强大，但也存在着学习曲线陡峭、开发效率较低等问题。通过利用领域特定语言、优化算法和深入理解硬件特性，可以在不依赖CUDA的情况下，实现甚至超越CUDA的性能。这种新的编程范式，不仅降低了GPU编程的门槛，也为人工智能领域的创新提供了更广阔的空间。随着技术的不断发展，我们有理由相信，未来将涌现出更多高效、易用的GPU加速工具，推动人工智能技术的进一步进步。这场变革不仅仅是技术上的进步，更是一场思维方式的转变，它将促使我们更加关注算法的优化、硬件的特性，以及如何构建更高效、更易用的工具，从而释放人工智能的无限潜力。

H100提速：无需CUDA，新作引爆关注！

发表评论