Anthropic 15亿美元和解后,AI数据“圈地运动”或终结

B站影视 韩国电影 2025-09-17 13:51 2

摘要:近期,AI 模型厂商 Anthropic 同意支付 15 亿美元,以和解一桩指控其使用盗版书籍训练其大语言模型 Claude 的集体诉讼。这一创纪录的和解金额不仅标志着 AI 时代首批重大法律支出之一,也为生成式 AI(Generative AI)行业与创意产

近期,AI 模型厂商 Anthropic 同意支付 15 亿美元,以和解一桩指控其使用盗版书籍训练其大语言模型 Claude 的集体诉讼。这一创纪录的和解金额不仅标志着 AI 时代首批重大法律支出之一,也为生成式 AI(Generative AI)行业与创意产业之间日益激烈的版权冲突树立了一个关键的标杆。

数据来源的法律定性

图丨William Alsup(来源:Wikipedia)

Alsup 法官的裁决巧妙地将案件的争议点进行了分离。他一方面承认,使用合法获得的材料来训练 AI 模型,使其学习语言模式与知识,这种行为具有显著的“变革性”(transformative use),在理论上可以落入美国版权法“合理使用”(fair use)原则的保护范畴。但他同时明确指出,当训练数据本身来源于盗版行为时,“合理使用”的辩护基础便不复存在。法律无法允许一个实体从其初始的非法行为中持续获益。盗版下载这一行为本身构成了明确的侵权,后续的使用无论多么具有创新性,也无法使其合法化。

这一裁决极大地改变了案件的走向。它将一个原本可能围绕“合理使用”这一复杂法律概念展开的漫长辩论,简化为了一个更具体、更难辩驳的事实问题:Anthropic 是否使用了非法来源的数据?在确凿的证据面前,如果案件进入庭审,Anthropic 将面临败诉的巨大风险,以及可能高达万亿美元的法定损害赔偿。因此,这 15 亿美元的和解金,对于这家高估值的公司而言,是一次为规避颠覆性法律风险而付出的必要成本。

此案的意义在于,它并未直接为“AI 训练是否构成合理使用”设定法律判例,但它在实践层面上为行业划定了一条清晰的红线:数据的获取方式是所有讨论的前提。无论技术如何发展,数据来源的合法性将是所有 AI 公司必须首先解决的问题。

蔓延至全行业的版权冲突

Anthropic 案只是当前 AI 领域版权争议的一个缩影。随着技术的应用范围不断扩大,类似的法律冲突已在文本、视觉艺术、音乐等多个创意领域全面展开。

在文本领域,最具代表性的案件之一是《纽约时报》对 OpenAI 的诉讼。该案的指控比 Anthropic 案更进一步,它不仅主张版权侵犯,还强调了直接的市场竞争损害。《纽约时报》指出,OpenAI 的 ChatGPT 在回答用户提问时,会生成大量与其付费内容高度相似甚至完全一致的文本,这直接构成了对其核心业务的替代,削弱了其作为权威信息来源的市场地位。这起诉讼的结果,将直接关系到新闻媒体行业在 AI 时代能否维持其商业模式。

图丨OpenAI 为自己辩护的博文(来源:OpenAI)

在视觉艺术领域,艺术家们对 Midjourney 和 Stability AI 等图像生成工具的诉讼,则更多地聚焦于个人风格的复制问题。艺术家们认为,这些 AI 模型通过学习他们发布在网络上的海量作品,已经能够精确模仿他们独特的艺术风格——这在某种意义上是他们个人身份与商业价值的核心。对他们而言,这不仅是作品被复制,更是其艺术人格被数据化和商品化,而他们自身却无法从这一过程中获得回报。

音乐产业的反应则更为直接。索尼、环球和华纳等大型唱片公司,凭借其成熟的版权管理体系,已对 AI 音乐生成器 Suno 和 Udio 提起诉讼。他们的法律逻辑相对简单:受版权保护的录音制品是明确的财产,任何未经授权的复制和用于模型训练的行为都构成侵权。AI 公司“学习模式而非复制内容”的辩护,在面对具体的录音版权时,说服力会受到很大挑战。

这些诉讼的核心法律争议,都围绕着美国版权法中的“合理使用”原则展开。这项原则通常需要考量四个因素,但在 AI 的背景下,每一个因素都变得异常复杂。

图丨维基百科关于“合理使用”原则的解释(来源:Wikipedia)

首先是“使用的目的和性质”。AI 公司普遍主张其用途是“变革性的”,因为模型并非复制内容,而是在学习数据中存在的模式、结构和关联,以生成全新的、原创性的输出。然而,版权方则认为,当 AI 生成的内容在功能上与原作形成直接竞争时(例如,AI 总结的新闻替代了原文,AI 生成的图像替代了艺术家的委托创作),这种变革性就大打折扣,更接近于一种市场替代行为。不过在近期的 Anthropic 和 Meta 案例中,法官们都认定 AI 训练具有高度变革性,这一要素对 AI 公司较为有利。

其次是“版权作品的性质”。使用事实性、新闻性的作品进行训练,比使用高度虚构和创造性的艺术作品,在“合理使用”的辩护上通常更有利。但这并不能成为一概而论的理由,尤其当新闻机构投入大量成本进行原创深度报道时,其作品的创造性价值同样不容忽视。

再次是“使用部分的数量和实质性”。这是 AI 公司辩护中最薄弱的一环。为了获得理想的模型性能,AI 训练几乎总是需要吞下完整的作品,而且是数以百万计的完整作品。这与传统“合理使用”中通常只引用片段的判例大相径庭。不过,在已有判例中,法官们认为如果用途足够变革性,使用完整作品并不必然排除合理使用的适用。

最后,也是最具决定性的因素,是“对版权作品潜在市场或价值的影响”。这正是《纽约时报》等案件的核心所在。如果版权方能够证明 AI 产品的存在显著损害了其订阅、授权或其他商业收入,那么“合理使用”的辩护将很难成立。但在目前的案例中,作者们往往难以提供具体的市场损害证据。

不同的应对路径与新的规则博弈

由于法律层面的不确定性,政府的态度就显得至关重要,然而目前来看,政策层面仍然存在不确定性。

美国政府在 AI 版权问题上呈现出一种充满矛盾且难以捉摸的政策态度。就在今年 7 月,特朗普政府发布了其官方的“AI 行动计划”(AI Action Plan)。值得注意的是,尽管当时 AI 与版权的纠纷已经愈演愈烈,但这份官方文件却刻意回避了这一核心议题。据知情人士称,计划的起草者们曾深入讨论是否应就版权问题提出政策建议,但最终因无法形成统一可行的方案而选择放弃。这反映出在官方层面,政府对于如何平衡技术创新与版权保护这两个同样重要的目标,尚无明确的立场,并倾向于将这一棘手问题留给法院去解决。

图丨美国的 AI 行动计划(来源:The White House)

然而,就在这份官方文件发布后不久,特朗普本人却在一次由“All-In”播客主办的 AI 峰会上,发表了截然不同的、带有强烈个人倾向的言论。他公开表示,不能期望一个成功的 AI 项目需要为其学习和研究的每一篇文章、每一本书付费。这一表态让 AI 行业的管理者们备受鼓舞,他们希望这能影响未来的司法判决或监管方向。

这种官方文件的谨慎沉默与领导人非正式场合的明确表态之间形成的不一致性,也反映出政府在面对 AI 这一新兴事物时,其内部在“赢得全球 AI 竞赛”的战略目标与“维护现有法律框架”的传统职责之间存在的张力。最终,这种政策上的模糊不清,实质上是将解决冲突的责任推给了法院和市场本身,迫使所有参与者在缺乏明确指引的情况下自行博弈。

正是在这样的法律与政策真空中,市场参与者们不得不开始寻找自己的出路,并由此分化出不同的应对策略。一部分 AI 公司,如 OpenAI,选择了主动与内容所有者合作的路径。通过与美联社、新闻集团等知名媒体机构签署内容授权协议,OpenAI 试图为其模型训练建立一个合法且高质量的数据来源渠道。通过支付许可费用,换取了业务的稳定性和法律上的确定性。

不过也有如谷歌这样的大型科技公司,目前更倾向于继续依托“合理使用”原则进行法律辩护。这或许是基于其在搜索引擎时代通过诉讼所确立的法律优势,以及对维护互联网信息自由流动原则的坚持。对他们而言,全面转向付费授权模式可能会带来巨大的运营成本,并从根本上改变其业务基础。

与此同时,作为对 AI 大规模数据抓取的回应,内容平台和出版商也开始建立自己的防御和谈判工具。在 2025 年 6 月,为全球数百万网站提供内容分发网络和安全防护服务的公司 Cloudflare 宣布推出专门的 AI 抓取监测工具,并计划建立一个“市场”,允许网站直接为自己的内容被 AI 系统使用设定价格。

9 月,一个由 Cloudflare、Reddit、雅虎、Medium 等知名网络出版商组成的联盟,推出了一个名为“真正简单许可”(RSL,Really Simple Licensing)的新开放标准。RSL 可以被看作是传统 robots.txt 协议(一个告知网络爬虫哪些内容不应抓取的非强制性规范)的升级版。它旨在提供一个机器可读的许可框架,让网站所有者能够明确地向 AI 公司传达其内容的使用条款。

图丨RSL(来源:RSL)

但与 robots.txt 这一“君子协定”不同,RSL 的出现伴随着一个更具实质性的变化:像 Cloudflare 和 Fastly 这样的互联网基础设施公司,正推出更强大的工具来帮助网站有效识别并阻断 AI 爬虫。这一转变的未来影响可能十分深远。过去网站乐于被谷歌抓取,因为这能带来流量;而 AI 的抓取则往往只提取价值而不带来回访,甚至会创造竞争性产品。

因此,内容发布者几乎没有动力去容忍不受控制的 AI 抓取。如果大部分网站开始利用新技术默认对 AI 爬虫关闭大门,那么那些依赖持续获取新鲜网络数据(无论是突发新闻、最新研究还是文化潮流)来保持其模型时效性和相关性的 AI 公司,将很快陷入数据荒的困境。这可能将从根本上逆转双方的议价能力,迫使 AI 公司从单方面的数据“掠夺者”,转变为必须坐到谈判桌前的“购买者”。

RSL 与 Anthropic 的和解案或许只是一个开端,但它们所代表的趋势——一个由技术强制力支撑的、明码标价的数据许可市场——预示着 AI 数据抓取的“免费午餐”时代正走向终结。互联网数据,正准备提出它的交易条件。

参考资料:

1.https://fortune.com/2025/09/05/anthropic-reaches-1-5-billion-settlement-with-authors-in-landmark-copyright-case/

2.https://www.theguardian.com/technology/2025/jun/30/ai-techscape-copyright

3.https://www.theinformation.com/articles/behind-white-houses-mixed-messages-ai-copyright?rc=rpuplc

4.https://techcrunch.com/2024/09/23/cloudflares-new-marketplace-will-let-websites-charge-ai-bots-for-scraping/

来源:不秃头程序员

相关推荐