AI训练暴露：数百万书籍被销毁，版权战升级

tech
2025年6月28日

近年来，人工智能的迅猛发展不仅推动了科技的进步，也引发了复杂的法律与伦理问题，尤其是在版权保护领域。近期，Anthropic公司因其训练先进语言模型Claude而采取的“拆书”训练方式引发了广泛关注和争议，涉及数百万本实体书籍的购入、拆解、数字化及销毁，进而激化了版权纠纷。这一事件不仅揭示了AI训练背后的数据采集困境，也在法律层面掀起了波澜，成为未来AI和版权关系的重要拐点。

Anthropic的训练策略本质上是为了获取大量高质量的文本数据。训练如Claude这样的语言模型需要海量、多样的文字资料，书籍作为知识密集的载体，自然成为不可或缺的素材。传统的版权授权流程复杂且昂贵，限制了数据的广泛获取。Anthropic因此选择一种激进的路径：以高额采购实体书籍代价，实质上“拆解”书籍，即拆开装订，逐页扫描转为数字格式，随即销毁实体书。看似绕过了传统审批手续，但直接触碰了版权法的敏感底线。

法律争议的焦点在于这一行为是否侵犯版权。著作权人认为，未经许可的复制和利用构成显著侵权，毕竟数字化作品用于训练模型，可能涉及复制、改编等版权专有权利的行使。而Anthropic则辩称其行为符合法律中的“合理使用”原则：书籍均合法购买，实体书拆解后即时销毁，数字数据仅限内部训练，并未对外发布。美国法院对此案的判决成为行业标杆。根据法官William Alsup的裁决，Anthropic符合合理使用的关键条件——合法购书、转换性使用（即利用作品训练AI模型创造新形式的表达）、限制性内部使用，并没有侵犯作者直接控制作品传播的权利。

然而，这次判决并非全盘支持Anthropic。法院明确谴责该公司涉嫌从盗版网站非法获取资料，建立永久数字档案的行为属犯罪。版权保护这一原则得到维护，强调了合法数据来源对AI发展重要性的同时，也提醒业界，未经授权即获取版权内容的行为必将面临法律追责。此举一方面保护了作者利益，另一方面也为制定AI数据使用规范提供了判例参考。

值得关注的是，类似情况并非仅限Anthropic，Meta也被诉讼后同样获得合理使用原则的支持。旧金山法官Vince Chhabria认为，在合理范围内采集版权作品用于AI训练，符合版权法转换性使用的精神。两起重要判例令行业看见，科技公司通过受控合法购买并合理利用数据训练AI，在法律框架内是可行的路径。但合理使用的边界依然有限，必须避免侵犯原创者的权利和利益。

从更广阔的视角看，人工智能训练所依赖的海量数据问题正日益凸显，传统版权法律体系面临前所未有的挑战。如何在鼓励技术创新与保护知识产权之间取得平衡，成了社会普遍关注的议题。未来，仅靠片面判例已难以全面应对，亟需立法部门出台专门条款，明确AI训练数据的合法获取与使用规则，促进科技健康发展，同时确保版权方权益不被侵害。

另一方面，Anthropic持续提升Claude的能力，例如引入百万字符的上下文处理及记忆功能，意味着AI交互正迈入更智能、人性化的阶段。这些技术进步的基础是对多元化、高质量数据的深度学习，数据的合法合规性关系到行业生态的稳定和可持续性。行业内部应加强自律，建立透明且合规的数据获取机制，以避免版权纠纷重演。

综上所述，Anthropic因训练AI拆书并销毁数百万实体书籍的事件，揭示了AI模型训练过程中版权保护的复杂现状。法院的“合理使用”判决为科技企业打开了一扇窗口，但对非法数据采集行为的严厉打击也敲响警钟。未来，明确的法律法规与技术伦理规范的建设刻不容缓，这不仅关乎版权人的利益，也关系着人工智能产业的健康长远发展与社会整体科技创新的可持续性。

AI训练暴露：数百万书籍被销毁，版权战升级

发表评论