摘要:案件的起点可以追溯去年,多位作家联名起诉Anthropic,称其在未经授权的情况下,将他们的作品用于AI模型Claude的训练。
近日,美国人工智能公司Anthropic同意支付15亿美元,以此来了结一桩由多位作家提起的集体版权诉讼。
这并不是一场普通的版权纠纷,它牵扯出的,是生成式AI产业链条中一个长期模糊却关键的问题——训练数据的合法性。
案件的起点可以追溯去年,多位作家联名起诉Anthropic,称其在未经授权的情况下,将他们的作品用于AI模型Claude的训练。
原告包括畅销书作家安德里亚·巴茨(Andrea Bartz)、纪实作家查尔斯·格雷伯(Charles Graeber)和柯克·华莱士·约翰逊(Kirk Wallace Johnson)等人。
根据提交的证据显示,Anthropic训练Claude时所使用的数据中,包括了超过700万本盗版的书籍,这些作品大多来自公共网络资源或盗版数据库。
美国加州北区地方法院法官威廉·奥尔苏普(William Alsup)在审理中指出,Anthropic可能因此在每一部受版权保护的作品上面临最高 15 万美元的赔偿。
过去几年,AI企业普遍默认训练数据“无主可索”。这种做法的理论基础是“技术中立”原则,也就是说,AI模型只是对已有数据进行分析和再构建,不直接复制原文内容,因此不算侵权。
但在这起案件中,法官的立场非常清晰,他认可“强转化性”在某些情形下可能构成“合理使用”,但不代表企业可以大规模使用盗版资源而不承担责任。
更关键的是,他拒绝了Anthropic提出的驳回案件请求,这意味着事情很可能进入庭审阶段。
面对潜在的巨额赔偿和行业声誉风险,Anthropic最终选择和解。公司在声明中称,这笔15亿美元的和解金将“解决原告剩余的遗留索赔”,试图尽快止损。
在AI圈,一直有人认为,版权诉讼会拖慢AI的发展,甚至可能让模型“断粮”。毕竟,训练一款语言模型需要海量的文本,而这些文本大多数都来自人类创作。
但伦敦商学院教授Alex Yang提出了一个关键观点:如果希望AI创作获得法律上的保护,那就必须首先尊重人类创作的版权。换句话说,AI的“创作权”不能建立在人类作者“无偿付出”的基础上。
这其实是利益分配的问题,并不是技术发展的障碍。AI企业该做的,是建立起与创作者之间的合理补偿机制,不能只想着逃避责任。
Anthropic并不是唯一一家面对版权诉讼的AI公司,OpenAI、微软、Meta等科技巨头也相继面临类似指控。
这些案件说明,AI行业对训练数据的依赖已经成为一个系统性风险点。过去企业可能认为“训练数据是公开的、免费的”,但这起案件之后,这种默认逻辑或许将会消失。
尽管案件以和解告终,但它带来的影响远不止于此。
AI技术的进步,是基于庞大的训练数据实现的,但数据并不是凭空而来,它背后是无数创作者日复一日的劳动。
AI企业不能再把创作者的作品当作“免费午餐”,过去的“白嫖”时代或许已经结束。接下来的AI行业,将不得不面对两个关键词:合规 和 付费。
技术可以突破边界,但不能突破底线。AI的价值,不应建立在对人类创作成果的掠夺之上,人类的创作被合理尊重,AI发展才有可持续的未来。
当AI终于开始为所“学”付出成本时,它才真正成为一个成熟的产业。
来源:晓婷医生吖