AI训练暴露：数百万书籍被销毁，版权风暴再起

tech
2025年6月29日

随着人工智能技术的迅猛发展，特别是大型语言模型（LLM）的崛起，AI训练所需的海量数据问题成为行业焦点。Anthropic公司近期因其在训练AI模型时耗资数百万美元购买并拆解销毁大量实体书籍，引发了一场复杂且意义深远的版权诉讼，掀起了科技与法律的激烈碰撞，也暴露了AI时代版权保护的尴尬处境。

Anthropic为了打造旗下强大的AI模型Claude，采取了一个看似极端却有效的数据获取方式——买书，拆书，扫成数字文件，随后销毁实体原件。从表面看，这种“将纸质书籍数字化以便机读”的做法似乎合理，毕竟实物已经合法购买，没有直接传播书籍内容。但此举引起了作者群体的强烈反弹，因他们认为这是对自己原创成果的侵害。原告方不仅控诉Anthropic未经许可即利用著作权内容训练模型，同时还揭露该公司涉嫌从盗版渠道下载数百万本书，创建了一个永久保存的“中央图书馆”，使版权争议火上加油。

美国加州北区联邦法院的判决带来前所未有的双刃剑效应。法官William Alsup认定，Anthropic购买正版书籍后进行扫描及销毁，且只用于模型训练，构成“合理使用”且具高度转化性，这为AI训练数据的版权路径开了一扇新门。裁决明确：AI训练可不经许可使用已出版作品，显著推进了AI技术合法利用的边界。然而，这一胜利是不完整的。案件同时披露Anthropic非法保留盗版作品，将面临12月的版权损害赔偿审判，一旦判定其为“蓄意侵权”，将处以巨额赔偿。

更令人震惊的是，调查发现Anthropic不仅依赖合法购买的书籍，还在2021-2022年期间，大规模从诸如LibGen和Books3等灰色盗版“影子图书馆”下载700多万本盗版书籍，以此充实训练数据，这种行为无疑触碰了法律底线。此外，Reddit和多家音乐版权方也对Anthropic发起诉讼，控告其未经许可使用网站内容和歌词训练模型，反映出AI训练数据获取的多维纠纷正在全面爆发。

这起事件揭示了AI发展与版权保护之间错综复杂的矛盾。一方面，AI技术进步依赖于大规模、多样化的数据支持，合理跨越版权障碍对行业发展极为关键；另一方面，作者及版权方的利益亟需得到保障，防止原创劳动被任意剥夺或利用。Anthropic案明确了法院对AI模型训练“合理使用”概念的认可，为业界提供了操作指导，但盗版数据的违规风险同样警醒业界必须严守法律红线。

未来，AI企业必须在寻找和利用训练数据时更加谨慎，制定符合版权法的策略，避免一旦涉及非法下载或滥用版权材料导致的高额赔偿。此外，立法层面亦需加速跟进，完善针对人工智能训练数据的版权法规，建立透明、公正、可操作的标准，兼顾促进技术创新与保护版权利益。Anthropic事件不仅是一场版权官司，更是AI行业成长的标尺，为全社会探索AI与版权共存共荣提出紧迫课题。

简言之，Anthropic因训练AI毁书引发的版权纠纷，是人工智能时代版权争议的缩影。判决虽扩大了AI合理使用的合法空间，却也暴露了盗版依赖的严重问题。面对AI技术飞速迭代的浪潮，唯有各方合法合力，才能在尊重知识产权基础上实现AI的健康发展。版权尊重与技术革新之间的博弈，才刚刚开始。

AI训练暴露：数百万书籍被销毁，版权风暴再起

发表评论