AI训练暴露：数百万书籍被销毁，版权战升级

tech
2025年6月29日

近几年，人工智能技术飞速发展，尤其是大语言模型的崛起，正深刻改变人们的信息获取和交流方式。然而，随着技术进步而来的是复杂的版权问题，Anthropic公司近日卷入的版权诉讼，正揭示了AI训练背后的惊天内幕。

Anthropic为打造其AI模型Claude，不惜斥资数百万美元，采取了极端的训练手段——大规模购买实体书籍，将其拆解、扫描为数字文件，然后销毁原书。这种做法虽然表面上避免了直接向版权方采购授权的高昂成本，却引发表面隐晦、实则尖锐的版权争议。毕竟，这些书籍的数字化不仅是为模型提供语料，更关系到作者的创作权益是否被尊重和保护。

法院的审理过程中发现，更为棘手的是Anthropic还从“影子图书馆”诸如LibGen和Books3下载了超过700万本盗版书籍，形成了一个“中央图书馆”，这无疑触碰了法律的红线。法院认定：购买的正版书籍经过扫描用于训练属于“合理使用”，但盗版书籍的存储则构成侵权。Anthropic一边借助这些数字化内容推动AI技术进步，一边面临潜在的巨额版权赔偿风险，这种矛盾凸显了AI训练数据来源的艰难平衡。

这场诉讼的判决具有开创性意义。它首次明确了用合法购买书籍进行AI训练，在法律上有一定的保护空间，成为业界判例的风向标。这大大减轻了AI研发的经济压力，为技术创新提供了宽松环境。但判决同时严肃强调了版权保护，未放松对盗版内容的追责力度，提醒业界必须遵守法律约束。

Anthropic的案例只是整个AI行业在版权领域面临问题的缩影。技术飞速进步与版权法规滞后之间的鸿沟，让诸如Meta等巨头也陷入了类似的诉讼漩涡。法院尝试在促进创新与维护版权之间寻求平衡，不断推动建立更公正合理的训练数据市场。这不但关乎AI企业的切身利益，也直接影响到内容创作者的未来生存空间。

未来，如何合法合规地获取训练数据，提升数据透明度和授权效率，成为AI发展不可回避的课题。基于授权合作的模式虽然成本较高，却是尊重知识产权、保障多方权益的可持续路径。AI企业需要在追求技术突破的同时，积极寻求与版权方的合作共赢，避免重蹈Anthropic因盗版数据遭遇法律风险的覆辙。

总之，Anthropic因训练AI而销毁数百万书籍、涉及盗版数据的版权争议，揭示了当前AI发展过程中知识产权保护的深层矛盾。法院判决在推动技术进步的同时，也树立了版权法规的底线，为行业发展划出红线。这场版权纷争提醒所有AI从业者，无论技术多么炽热，守法合规始终是发展根基。未来AI的长远繁荣，必须建立在尊重原创与法律权威的基础之上。版权之战还在继续，AI行业的未来走向，正由此被深刻书写。

AI训练暴露：数百万书籍被销毁，版权战升级

发表评论