AI训练暴露：数百万书籍被销毁引发版权风暴

tech
2025年6月27日

近几年，人工智能领域的迅猛发展，尤其是大型语言模型（LLM）的崛起，彻底改变了我们对信息的获取和处理方式。然而，这场技术革命背后，隐藏着鲜为人知的复杂纠纷，尤其是版权问题，正逐渐浮出水面。最近，美国法院针对AI公司Anthropic的几起版权诉讼判决，再次将这一敏感话题推到了风口浪尖，并揭露了部分让人震惊的内幕——为了训练其AI模型Claude，Anthropic竟然大量购买、拆解、扫描并销毁了数百万本实体书籍。

这场版权大戏的核心，是Anthropic在训练其先进语言模型时的“图书消耗”战略。据法庭文件显示，Anthropic为了获取大量高质量的训练数据，花费数百万美元购买了数百万册纸质书籍。而这些书籍在完成扫描数字化后，却被公司“销毁”——意味着实体书彻底从市场和读者手中消失。这种做法无疑触碰了文化资源的神经，引发了行业及作者群体的极大不满。更让人瞠目结舌的是，Anthropic还从未经授权的盗版网站上下载了超过七百万本受版权保护的电子书，非法编织进其庞大的训练数据库里。这一恶劣行为，更将版权争议推向了高潮。

诉讼的原告是诸多作家和版权持有人，他们指控Anthropic未经许可复制其作品，用于商业模型训练并获利，却从未支付合理的版权费用。作家们担忧，这种行为不仅剥夺了他们的经济权益，更可能冲击原创动力，使得创作环境遭受打击。对此，Anthropic的辩护则聚焦于“合理使用”原则，强调自己在纸质书购买和数字化过程中，虽将书籍销毁，但所做行为并未涉及对外传播或商业利用，且数字材料仅限于内部模型训练，属于法律允许的范畴。

美国加州北区联邦法院最终判决支持了Anthropic在使用已购买实体书籍进行AI训练时的合理使用辩护。法官William Alsup特别指出，Anthropic的购买、扫描、销毁行为合法合规，且模型训练的内部限定使得这类使用不构成版权侵权。然而，法院同样警告并未容忍Anthropic从盗版网站下载电子书的行为，明确认定这部分行为涉嫌数字盗版，可能构成侵犯版权。这一判决不仅奠定了AI训练版权适用“合理使用”原则的法律基石，也为后续监管和行业规范提供了重要参考。

这场案件的判决产生的影响深远且复杂。一方面，它为AI技术的迭代和突破提供了法律上的支持，避免了对创新发展的不合理桎梏；另一方面，它暴露了当前版权保护体系与新兴技术的深刻矛盾，原创作者的利益怎样被平衡和维护，成为亟待解决的难题。书籍作为文化积淀的载体，其资源的“消耗式”利用模式，是否会导致文化传承的弱化，需要更多社会层面的讨论和警示。

展望未来，面对AI训练所带来的版权挑战，单纯依赖传统版权法显然难以奏效。或许，有必要创新版权许可机制，鼓励AI企业在支付合理版权费用的基础上合法使用作品，实现技术与创作的共赢。此外，推动AI研发新技术以减少对版权内容的依赖，发展自主生成或开源数据集，也是一条可行之路。无论如何，这场围绕版权与AI的大戏才刚刚拉开序幕。只有跨界对话、法律科技联动，才能找到既推动技术边界，又保护文化创作者的理想平衡点，为未来智能文明的可持续发展铺路。

AI训练暴露：数百万书籍被销毁引发版权风暴

发表评论