谷歌无视出版商反对，擅用网络内容训练AI

tech
2025年5月4日

在数字技术迅猛发展的今天，人工智能与搜索引擎的深度融合正在重塑信息获取方式。Google近期因AI训练数据使用问题陷入舆论漩涡——即便出版商明确选择退出，其内容仍可能被用于搜索AI产品的训练。这一事件不仅暴露了技术伦理的灰色地带，更引发了关于数据主权、知识产权与技术创新边界的重要讨论。

数据使用机制的争议焦点

Google的”选择性退出”机制存在显著漏洞。根据法庭披露，其搜索AI（如AI Overviews）仅过滤了800亿个标明退出的内容标记，而系统仍可调用海量未受保护的数据进行训练。更关键的是，退出控制仅对DeepMind部门有效，其他AI团队仍可自由获取数据。这种机制分裂性导致《纽约时报》等媒体指控其构成”系统性数据掠夺”。
技术层面，出版商仅能通过robots.txt文件或退出搜索索引来阻止数据采集，但这些诞生于Web1.0时代的标准协议，显然难以应对生成式AI的数据饥渴。Google新推出的Google-Extended控制标志本意是建立”搜索可用但AI禁用”的中间地带，但测试显示其拦截成功率不足65%，暴露出技术解决方案的滞后性。

零点击搜索引发的生态危机

AI摘要功能正在加剧”零点击搜索”现象。数据显示，搭载AI Overviews的搜索结果使出版商网站流量平均下降28%，其中食谱类网站流量暴跌42%。这种”答案直给”模式虽然提升用户体验，却切断了内容创作者的关键变现路径：广告展示与联盟营销。
更严峻的是，小型创作者面临生存危机。独立博客主玛丽·陈的案例颇具代表性——她的原创烘焙教程被AI摘要直接呈现配方步骤，导致月收入从3000美元骤降至700美元。当AI系统将十年专业经验压缩成三行操作指南时，知识生产的原始动力正在被系统性瓦解。

法律与伦理的角力场

监管机构已开始强势介入。美国司法部在反垄断诉讼中要求Google剥离广告技术业务，欧盟《数字市场法》则首次将”AI训练数据透明度”纳入监管范畴。2024年6月，英国议会更通过修正案，明确将未经同意的AI训练视为版权侵权。
技术伦理学家丽莎·赫兹伯格提出”数据契约”新范式：AI企业应按数据使用量向内容生产者支付版税，其建议费率（每千次训练0.17美元）已获作家协会支持。而Google内部流出的”数据信托”提案显示，其正探索建立第三方托管平台，通过区块链技术实现数据使用的全程可审计。
这场冲突本质上是数字文明演进中的阵痛。技术发展不应以牺牲内容生态为代价，而数据价值的合理分配将成为关键平衡点。未来可能需要建立全球性的”数据交易所”，通过智能合约实现自动化的授权与结算。正如互联网先驱蒂姆·伯纳斯-李所言：”我们既需要机器理解世界的能力，更要守护人类创造世界的热情。”这或许正是数字时代的新社会契约。

谷歌无视出版商反对，擅用网络内容训练AI

发表评论