AI训练暴露：数百万书籍被销毁引发版权风暴

tech
2025年6月28日

近年来，随着人工智能技术的爆发式发展，大型语言模型（LLM）的训练成为推动行业进步的核心动力。然而，与之伴随的海量数据需求背后，版权保护问题正愈发尖锐。Anthropic因为在训练其AI模型Claude时，购入并销毁了数百万本实体书籍，激起了版权纠纷的轩然大波，揭示了当前AI数据使用与知识产权保护的深刻矛盾与挑战。

Anthropic作为人工智能领域的领先初创企业，其Claude模型被视为对标OpenAI ChatGPT的重要竞争者。为了获得训练所需的多样化语料，Anthropic采取了极具争议的做法——他们以巨额资金购买大量实体书籍后，通过拆解装订线，将书页扫描数字化用于模型训练，随后销毁原始书籍。这一做法看似解决了数据采集的合法性问题，却也直接引发了众多作者及版权方的强烈反弹，指责其未经授权侵害了作者权益。此次版权诉讼不仅关乎Anthropic的商业命运，更折射出AI行业在高速发展过程中对版权法规适用的重大考验。

在这起诉讼中，美国加州北区联邦法院法官William Alsup的判决成为关键转折点。法官认定，Anthropic购买并数字化图书的过程属于合法交易行为，且其只在内部使用数字化内容，未进行未经授权传播，因此构成“合理使用”（Fair Use）。裁判理由依托于“转型性”原则：AI训练并非简单复制，而是将受版权保护的内容转化为全新形式和新的用途。这一判决在AI版权领域具有开创意义，明确赋予AI训练活动一定的法律保护空间，有助推动行业在法律框架内持续创新。

然而，判决同时对Anthropic的“底线”行为进行了限制。法庭强调，Anthropic若使用了盗版网站上的书籍进行训练，则构成版权侵权，将面临巨额赔偿风险，相关审判定于年底进行。此外，Anthropic因涉嫌未经授权抓取Reddit平台数据同样面临诉讼压力。法院此举体现了对数据来源合法性的高度重视，防止AI企业以任何方式规避版权保护义务，既保障了数据权利人的利益，也促使AI技术研发体现更高的合规标准。

此次诉讼具有里程碑意义，它在某种程度上确立了AI模型训练可依靠合理使用原则使用合法采集数据的法律基础，为繁杂的版权难题厘清了部分思路。与此同时，法院也发出了强烈信号：无论是购买的纸质书还是网络数据，若涉及侵权即严惩不贷。AI发展必须在尊重版权与推动创新间找到微妙平衡，既不能因技术便利而侵犯作者创作权益，也不能因版权限制而扼杀技术进步。

展望未来，随着AI模型对数据召唤力的不断膨胀，版权问题将进一步复杂化。AI企业需更加审慎地构建数据来源链条，强化与版权方的合作与授权机制。法规制定者也应不断适应技术发展节奏，完善法律体系，明确合理使用的边界与规则，确保创新与版权保护并驾齐驱。Anthropic案件为业界敲响警钟，也为法律实践积累了宝贵先例，是技术发展与法律制度协调演进的关键试验场。

总的来说，Anthropic因训练AI销毁百万书籍事件，既揭露了AI数据采集中的版权博弈，也彰显了法律对新兴技术的调适能力。这场版权纠纷升级不仅影响一家企业的兴衰，更关系整个AI行业的未来走向，促使社会各界深刻审视创新与知识产权保护的平衡路径。真正的技术革命，必须建立在依法合规和尊重创作成果的基础上，唯有如此，人工智能才能走得更远、更稳、更持久。

AI训练暴露：数百万书籍被销毁引发版权风暴

发表评论