AI训练暴露：数百万书籍被销毁，版权风暴来袭

tech
2025年6月29日

人工智能技术正以前所未有的速度发展，其背后的数据运用和法律边界问题也日益凸显。Anthropic公司为了打造先进的语言模型Claude，采取了一种极具争议的“买书-扫描-销毁”策略：花费数百万美元购买大量实体书籍，拆解后进行数字化处理，用于训练AI模型，随后将这些实体书籍全部销毁。这种操作方式一经曝光，顿时引发轩然大波，不仅激起众多作者的愤怒，也引发了一场涉及版权保护与人工智能合法权益的重大诉讼。

Anthropic的做法正处于传统版权法律与创新科技应用的交汇点上。版权法向来保护原创作品不被未经授权的复制和传播，而Anthropic声称他们的数字化和使用属于“合理使用”，因为这些数字内容仅用于模型内部训练，且未被公开传播。根据美国版权法，合理使用原则允许在某些条件下不经许可使用受版权保护的作品，特别是当使用具备足够转化性和创新性、不会影响原创作品的市场价值得到一定认可。法院的判决也正是支持了Anthropic的这一主张，认定其购买并扫描书籍，随后仅限于内部模型训练和即刻销毁的行为，符合理性使用范畴。

然而，这场官司并未全然惠及Anthropic。法庭同时指出该公司从盗版网站“影子图书馆”下载了超过700万本图书的行为构成明显侵权。此一判决划清了使用数据的法律底线：合法购买的书籍可以用于AI训练，盗版数据则绝不可取。此既是对版权持有者权益的保护，也是对AI企业合规使用数据的强有力提醒。此举为AI行业提供了清晰的法律指导，促使企业在数据收集环节更加谨慎合规，避免涉嫌版权侵权风险。

这场涉及Anthropic的版权诉讼，无疑成为AI行业法规制定的重要参考标杆。AI系统性能提升的根本在于海量、高质量的数据输入，但这些数据来源必须在版权法规范围内合规获得。法律界的判决显露出对技术创新的包容态度，同时重申不容突破的法治底线。未经许可的大规模盗版数据使用，不仅损害创作者利益，亦影响整个行业的健康生态。未来各国在版权保护和AI发展之间仍将寻找一种动态平衡，确保AI技术既能自由成长，也不会踩踏法律红线。

长远来看，Anthropic事件揭示了AI时代版权保护的巨大挑战与复杂性。海量数据与智能系统的关系越来越密不可分，版权法必须与时俱进，细化界定合理使用边界及责任承担机制。与此同时，AI企业需积极探索数据采集新模式，如强化与版权方合作、开发合成数据技术，以降低依赖传统版权内容的风险。版权拥有者也正通过技术手段，与AI开发公司展开更多对话与合作，互惠互利的生态体系方能稳固。

Anthropic因其极端且激进的训练数据获取方式引发的版权纠纷，或许只是人工智能与法律冲突的开端。面对未来不可避免的数据需求爆炸，如何在尊重原创者权益与激发创新活力间找到平衡点，将成为全社会亟需回响和调整的关键问题。究竟是法律的进一步适应，抑或技术手段的革新突破，Anthropic案例无疑为全球AI治理开辟了一条全新且充满张力的发展路径。未来，AI能否“安心读书”，或许正握在法律与伦理共同塑造的手中。

AI训练暴露：数百万书籍被销毁，版权风暴来袭

发表评论