AI训练暴露：Anthropic销毁百万书籍引发版权风暴

tech
2025年6月29日

随着人工智能（AI）技术的迅猛发展，其中以大型语言模型（LLM）如ChatGPT、Claude为代表的系统，彻底改变了人类与信息交互的方式。然而，支撑这些智能体背后庞大的训练数据来源及其合规性问题，正在引发一场前所未有的版权与伦理风暴。近日，AI公司Anthropic因为了训练AI助手Claude大规模购买实体书籍，拆解扫描后“销毁”原件的做法，再次把版权纠纷推向了风口浪尖。

Anthropic为了打造更强大的语言模型，不惜花费数百万美元收购大量实体图书，并将这些书籍拆解成数字文件，用于训练AI。表面上看，这是一种为了获得高质量内容的“捷径”，因为编辑出版的书籍内容经过专业打磨，信息密度与准确度远超网络随意爬取的数据。然而，这一行为却绕开了传统的版权授权程序，直接引发了作家和出版商的强烈反弹。三位知名作家以涉嫌盗版为由起诉Anthropic，称其未经许可，盗用人类智慧成果，谋取商业利益。

此次版权诉讼的焦点集中在所谓的“合理使用”原则上。作为美国版权法中的例外条款，合理使用允许在某些条件下使用受版权保护的材料，而不构成侵权。Anthropic辩称，训练大型语言模型是一种极具“转化性”的用途——它并非简单复制或传播原文内容，而是通过算法挖掘数据背后的语言规律和知识模式，从而创造出全新的智能表现。来自旧金山的联邦法院法官威廉·阿尔苏普最终采纳了这一观点，首次明确判定未经授权使用已出版书籍训练AI模型属于合理使用。

这项历史性判决对AI行业意义重大，为AI模型训练在法律上提供了突破口，激励更多公司在数据基础上进行创新。它肯定了AI正在开启的“知识重塑”时代，强调了数据的转化价值。然而，判决的利好仅限于合法购书的数据，法院同时警告Anthropic不可触碰版权红线。该公司被发现从盗版平台如LibGen大量下载数百万本书籍，并将其永久存储在内部资料库，此举被认定为明确侵权。如果被判“蓄意侵权”，将面临高额赔偿，可能给其财务带来沉重打击。

这起案件不仅是纸质书籍与AI训练之间的较量，更深刻反映出数字时代版权保护与技术创新的矛盾。传统版权体系设计用于防止作品被随意复制传播，而AI通过“理解”和“再创作”数据，实现了以往法律框架难以精准管理的使用模式。如何界定合理使用边界，保护创作者权益同时不扼杀创新，成为各界急需解决的核心难题。Meta在类似的官司中获胜，进一步稳固了合理使用在AI领域的地位，但各方仍在摸索平衡点，出版商呼吁立法加强对AI训练数据的监管。

展望未来，AI行业需建立更加透明和具合作性的训练数据供应链。一方面，可通过合法采购或版权合作确保数据合法合规；另一方面，可探索区块链等新技术追踪数据来源保障权益。行业自律与监管协调将成为维护生态健康发展的关键。Anthropic案件无疑成为一个标杆事件，推动社会重新评估AI与版权的关系，促使法律、伦理、技术多方面共同进步。

总的来看，AI时代的版权争议将持续存在，但法律已开始为合理利用数据提供支持。尊重创作者权益与激励技术创新之间的博弈仍在继续。Anthropic事件提醒我们，未来整个AI生态的繁荣，离不开科学的法律框架和开放包容的合作氛围。唯有如此，人工智能才能真正实现对人类智慧的尊重和升华，迈向更加公平、透明与可持续的未来。

AI训练暴露：Anthropic销毁百万书籍引发版权风暴

发表评论