AI盗书第一案定调！15亿背后是700万盗版书，AI训练告别“白嫖”

摘要：案件的起点可以追溯去年，多位作家联名起诉Anthropic，称其在未经授权的情况下，将他们的作品用于AI模型Claude的训练。

近日，美国人工智能公司Anthropic同意支付15亿美元，以此来了结一桩由多位作家提起的集体版权诉讼。

这并不是一场普通的版权纠纷，它牵扯出的，是生成式AI产业链条中一个长期模糊却关键的问题——训练数据的合法性。

案件的起点可以追溯去年，多位作家联名起诉Anthropic，称其在未经授权的情况下，将他们的作品用于AI模型Claude的训练。

原告包括畅销书作家安德里亚·巴茨（Andrea Bartz）、纪实作家查尔斯·格雷伯（Charles Graeber）和柯克·华莱士·约翰逊（Kirk Wallace Johnson）等人。

根据提交的证据显示，Anthropic训练Claude时所使用的数据中，包括了超过700万本盗版的书籍，这些作品大多来自公共网络资源或盗版数据库。

美国加州北区地方法院法官威廉·奥尔苏普（William Alsup）在审理中指出，Anthropic可能因此在每一部受版权保护的作品上面临最高 15 万美元的赔偿。

过去几年，AI企业普遍默认训练数据“无主可索”。这种做法的理论基础是“技术中立”原则，也就是说，AI模型只是对已有数据进行分析和再构建，不直接复制原文内容，因此不算侵权。

但在这起案件中，法官的立场非常清晰，他认可“强转化性”在某些情形下可能构成“合理使用”，但不代表企业可以大规模使用盗版资源而不承担责任。

更关键的是，他拒绝了Anthropic提出的驳回案件请求，这意味着事情很可能进入庭审阶段。

面对潜在的巨额赔偿和行业声誉风险，Anthropic最终选择和解。公司在声明中称，这笔15亿美元的和解金将“解决原告剩余的遗留索赔”，试图尽快止损。

在AI圈，一直有人认为，版权诉讼会拖慢AI的发展，甚至可能让模型“断粮”。毕竟，训练一款语言模型需要海量的文本，而这些文本大多数都来自人类创作。

但伦敦商学院教授Alex Yang提出了一个关键观点：如果希望AI创作获得法律上的保护，那就必须首先尊重人类创作的版权。换句话说，AI的“创作权”不能建立在人类作者“无偿付出”的基础上。

这其实是利益分配的问题，并不是技术发展的障碍。AI企业该做的，是建立起与创作者之间的合理补偿机制，不能只想着逃避责任。

Anthropic并不是唯一一家面对版权诉讼的AI公司，OpenAI、微软、Meta等科技巨头也相继面临类似指控。

这些案件说明，AI行业对训练数据的依赖已经成为一个系统性风险点。过去企业可能认为“训练数据是公开的、免费的”，但这起案件之后，这种默认逻辑或许将会消失。

尽管案件以和解告终，但它带来的影响远不止于此。

AI技术的进步，是基于庞大的训练数据实现的，但数据并不是凭空而来，它背后是无数创作者日复一日的劳动。

AI企业不能再把创作者的作品当作“免费午餐”，过去的“白嫖”时代或许已经结束。接下来的AI行业，将不得不面对两个关键词：合规和付费。

技术可以突破边界，但不能突破底线。AI的价值，不应建立在对人类创作成果的掠夺之上，人类的创作被合理尊重，AI发展才有可持续的未来。

当AI终于开始为所“学”付出成本时，它才真正成为一个成熟的产业。

来源：晓婷医生吖

标签：训练 claude anthropic 盗版书安德里亚

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!