H100提速：无需CUDA，新作引爆关注！

tech
2025年7月13日

人工智能的快速发展，正在推动着计算资源的需求以前所未有的速度增长。特别是在深度学习领域，训练和部署大型模型对高性能计算（HPC）硬件提出了严峻挑战。作为目前业界标杆，英伟达的H100 GPU凭借其强大的计算能力，成为了构建AI基础设施的关键。然而，释放H100的全部潜能并非易事，传统的CUDA编程方式复杂且耗时，成为许多研究人员和工程师面临的难题。近期，一项由Flash Attention和Mamba作者之一Tri Dao及其团队带来的技术突破，正在改变这一局面。他们推出了一款名为QuACK的新型内核库，这款工具的核心优势在于它摆脱了对CUDA C++代码的依赖，仅使用Python和CuTe-DSL进行开发，却能在H100上实现33%-50%的加速效果，甚至超越了PyTorch中经过深度优化的torch.compile和Liger等库，这无疑为GPU编程领域带来了新的曙光。

新技术的突破与挑战并存，未来科技的蓝图也由此展开。

首先，QuACK的出现，代表着GPU编程范式的重大转变。长期以来，GPU编程一直被视为高度专业化的领域，需要开发者深入理解CUDA架构的复杂性和底层硬件的细节。这无疑提高了进入门槛，限制了更多研究人员和工程师参与到高性能计算的优化中。而QuACK的创新之处在于，它通过引入更高级的抽象层，使得开发者能够使用Python和CuTe-DSL等更友好的语言进行编程。CuTe-DSL作为一种新的领域特定语言，极大地简化了GPU高效运行的实现过程，减少了开发人员的负担。这使得非CUDA专家也能更容易地开发和优化高性能深度学习内核，从而加速模型的训练和推理过程，推动AI技术的普及和创新。更重要的是，QuACK的成功也反映了领域内对更易用、更高效的GPU编程工具的强烈需求。未来，我们可能会看到更多类似工具涌现，进一步降低GPU编程的门槛，推动整个行业的快速发展。

其次，深入理解内存优化是性能提升的关键。QuACK的性能提升，很大程度上得益于其对内存绑定的精细化优化。在编写GPU内核代码时，高效的数据加载和存储是影响性能的关键因素。Tri Dao团队通过深入分析QuACK的内存负载图和SASS代码，发现当每个SM（Streaming Multiprocessor）需要加载大量数据时，例如65k，SM的资源会迅速耗尽，导致寄存器溢出和频繁的HBM（High Bandwidth Memory）回写，从而极大地拖慢了速度。通过对硬件的深刻理解，即使是常规的三遍扫描方法，Tri Dao团队也能有效地解决这一问题，实现显著的性能提升。这表明，即使是在硬件层面，通过巧妙的算法设计和优化，也能显著提高性能。这不仅对QuACK本身，也对其他深度学习框架的性能优化提供了重要的启示。此外，英伟达CUTLASS团队的资深成员对CuTe-DSL的设计表示高度赞扬，更加证明了这种基于DSL的编程方式的可行性和优势。未来，基于DSL的GPU编程工具可能会成为主流，进一步简化GPU编程，提高开发效率。

最后，AI驱动的GPU优化是未来发展的重要方向。除了QuACK之外，其他研究也在探索利用AI技术来优化GPU内核。例如，斯坦福大学的研究人员利用AI生成了超强CUDA内核，其性能甚至超越了人类专家手动优化的结果。此外，针对H100的优化也在持续进行。Flash Attention的后续版本，例如FlashAttention-3，通过针对H100 GPU的新特性进行优化，将FLOP（Floating Point Operations Per Second）利用率从之前的35%提升至75%，速度提升了1.5到2倍，在H100上的速度达到了740 TFLOPS。这些进展表明，AI正在成为优化GPU性能的重要工具，并有望在未来带来更多突破。同时，一些公司也在积极推出加速包，例如英伟达针对大模型推出的加速包，能够将Llama2推理速度翻倍。然而，随着模型规模的不断扩大和训练复杂度的增加，H100集群的稳定性和可靠性也面临着新的挑战。在Llama3.1的训练过程中，平均每3小时就会出现一次故障，这凸显了万卡集群在运行大型模型时的脆弱性。因此，在追求极致性能的同时，也需要关注系统的稳定性和容错能力。未来，如何提高GPU集群的稳定性和可靠性，将成为一个重要的研究方向。

QuACK内核库的出现，标志着GPU编程领域的一次重要进步。它降低了高性能计算的门槛，推动了AI技术在GPU优化方面的应用，并为未来GPU编程的发展指明了方向。随着更多研究人员和工程师加入到这一领域，我们有理由相信，未来将会有更多创新涌现，进一步释放H100等高性能硬件的潜力，加速人工智能的发展，推动科技社会迈向更高的水平。

H100提速：无需CUDA，新作引爆关注！

发表评论