H100提速：无需CUDA，新作引爆关注！

tech
2025年7月13日

人工智能的飞速发展正以前所未有的速度重塑着我们的世界。从自动驾驶汽车到个性化医疗，再到复杂的金融模型，AI的应用正在渗透到我们生活的方方面面。然而，这种爆炸性的增长也对计算资源提出了前所未有的需求。特别是，大规模语言模型（LLM）的训练和推理，对高性能计算（HPC）硬件，尤其是英伟达的H100 GPU，提出了严峻的挑战。H100以其强大的计算能力，成为加速AI运算的核心。但如何充分利用H100的强大性能，同时降低高昂的计算成本，一直是研究者和工程师们关注的焦点。传统上，开发者们依赖CUDA C++等底层编程语言来充分发挥GPU的潜力，但这种方式需要深厚的专业知识和繁琐的开发工作。如今，一场变革正在悄然兴起，一种全新的趋势预示着AI加速的未来：无需CUDA代码，即可显著提升H100的性能。

加速计算，解放CUDA：新范式与新工具

在AI加速领域，一场新的范式革命正在酝酿。传统的CUDA C++编程虽然强大，但其复杂性和陡峭的学习曲线限制了开发者的数量和效率。如今，一些创新性的工具和框架应运而生，它们允许开发者使用更高级、更易于使用的语言来编写高性能的GPU内核，从而绕过对CUDA的依赖，极大地降低了开发门槛。

一个引人注目的例子是由Tri Dao及其团队开发的QuACK内核库。Tri Dao是Flash Attention和Mamba算法的共同作者，深谙优化Transformer模型性能之道。QuACK的独特之处在于，它完全使用Python和CuTe-DSL（领域特定语言）编写，摒弃了传统的CUDA C++代码。这意味着开发者可以使用更高级的Python语言来编写高效的GPU内核。据报道，QuACK在H100显卡上实现了比PyTorch中的torch.compile和Liger等库快33%-50%的性能提升，这无疑为AI模型的训练和推理带来了巨大的加速。这种性能提升的关键在于QuACK对SOL（Scale-Out Linear Algebra）内存绑定内核的优化，通过更有效地管理GPU内存，减少数据传输的瓶颈，从而提高计算效率。QuACK的成功表明，通过精巧的设计和优化，即使不依赖CUDA，也能充分发挥H100的性能。

另一项令人瞩目的成果是斯坦福大学的研究人员推出的ThunderKittens AI加速框架。这款框架仅用百行代码，就能够在H100上实现约30%的性能提升，甚至超越了FlashAttention-2。这进一步验证了，通过巧妙的算法设计和代码优化，即便不使用CUDA C++，也能充分挖掘GPU的潜力。更令人惊叹的是，斯坦福团队还利用AI技术来自动生成CUDA内核，生成的内核性能甚至优于人类专家手动优化的结果。这一突破性进展预示着，AI将在GPU内核优化领域发挥越来越重要的作用，加速AI硬件的创新，并可能颠覆传统的GPU编程模式。

AI技术与硬件结合：潜力的无限拓展

除了上述案例，其他公司也在积极探索绕过CUDA的途径。DeepSeek公司在DeepSeek-R1模型上的尝试就是一个例子，尽管具体细节尚未完全公开，但相关报道表明，该模型在某些情况下能够绕过CUDA，直接利用硬件资源进行计算，从而提高效率。这显示了行业对简化计算流程，提高效率的共同追求。此外，Flash Attention也在不断迭代升级，第三代Flash Attention针对H100 GPU的新特性进行了优化，性能相比前代大幅提升，比标准注意力操作快16倍，充分利用了H100的计算能力。这些案例共同表明，在AI加速领域，摆脱对CUDA的依赖，探索新的编程范式和优化策略，已经成为一种重要的发展趋势。这不仅意味着开发者能够更容易地编写高性能代码，也为AI硬件的创新提供了新的动力。

这种趋势并非意味着CUDA C++将完全退出历史舞台。CUDA C++仍然是GPU编程的主流语言，拥有庞大的用户群体和完善的生态系统。但随着Python和CuTe-DSL等高级工具的不断发展，以及AI技术在内核优化领域的应用，越来越多的开发者将能够使用更简单、更高效的方式来加速AI计算。未来，CUDA C++和Python等高级语言可能会形成互补的关系，共同推动AI硬件和软件的创新。CUDA C++可以专注于底层的优化和硬件控制，而Python和其他高级语言则可以提供更友好的开发环境和更快的开发速度。

总结而言，无需CUDA代码加速H100 GPU的趋势，代表着AI计算领域的一次重要变革。通过QuACK、ThunderKittens等创新工具，开发者可以更轻松地编写高性能的GPU内核，充分挖掘H100的潜力，降低计算成本，加速AI模型的训练和推理。这种趋势不仅将推动AI技术的进步，也将为AI应用带来更广阔的发展空间。我们可以预见，未来的AI计算将会更加高效、便捷，从而加速AI在各个领域的应用，彻底改变我们的生活。这场变革的核心在于简化开发流程，提升开发效率，释放硬件潜能，从而推动AI技术不断向前发展。

H100提速：无需CUDA，新作引爆关注！

发表评论