孙那 陶玥竹 | 美国人工智能数据训练版权侵权第一案评析

B站影视 欧美电影 2025-03-19 15:12 1

摘要:2025年2月,美国特拉华州联邦地区法院作出了一项具有标志性意义的判决,首次认定人工智能数据训练使用构成版权侵权。在汤森路透(Thomson Reuters)诉罗斯智能(ROSS Intelligence)案件中,法院认定罗斯未经授权使用Westlaw数据库中

目次

· 引言

一、案件概况

二、裁判观点

三、案件评析

· 结语

引 言

2025年2月,美国特拉华州联邦地区法院作出了一项具有标志性意义的判决,首次认定人工智能数据训练使用构成版权侵权。在汤森路透(Thomson Reuters)诉罗斯智能(ROSS Intelligence)案件中,法院认定罗斯未经授权使用Westlaw数据库中的头注(headnotes)训练人工智能系统,侵犯了汤森路透的版权,并驳回了罗斯提出的合理使用等抗辩。本案是美国人工智能训练数据版权领域的首个判例,对人工智能技术发展及训练数据的合规性提出了更高要求,也为类似案件的审理提供了司法裁判参考。

、案件概况

2020年,汤森路透(Thomson Reuters)在美国特拉华州联邦地区法院起诉罗斯智能(ROSS Intelligence),指控其未经授权使用Westlaw数据库中的头注(headnotes)训练人工智能系统,侵犯了原告的版权。汤森路透运营知名法律数据库Westlaw,提供法律研究资料,并拥有Westlaw头注的版权。罗斯智能是一家人工智能法律检索工具开发公司,在被Westlaw拒绝授权后,为训练其人工智能系统,罗斯与LegalEase公司达成协议,LegalEase向律师提供指南,说明如何使用Westlaw的头注创建问题,同时明确指出律师不应直接复制和粘贴头注。随后LegalEase将约25000份由律师基于Westlaw头注整理而成的法律问题及其正确与错误答案的集合Bulk Memos出售给罗斯,罗斯用它来训练人工智能检索工具,构建Westlaw的竞争性产品。汤森路透发现后,以版权侵权为由提起诉讼。罗斯提出多项抗辩理由,主张无意侵权(innocent infringement)和合理使用,认为汤森路透属于版权滥用(copyright misuse),此外还引用了合并原则(merger doctrine)和场景原则(scenes à fa doctrine)主张头注不应被视为美国版权法保护的对象。

二、裁判观点

在2023年,法官大部分驳回了汤森路透关于版权侵权和合理使用抗辩的简易判决动议,案件因此进入审判阶段。在2024年8月审判日期临近时,法官更加仔细地研究了案件材料,并意识到之前的简易判决理由并不充分,因此决定继续审理案件,并邀请双方重新提交简易判决的辩论材料。2025年2月,法院判决:

(一)认定罗斯直接侵犯了汤森路透2243条头注的版权,原因如下:

首先,Westlaw头注是从冗长的司法意见中提炼出来的一个简短的法律要点,通过提炼、综合或解释部分观点来体现独创性,符合版权保护客体条件,并且汤森路透已为其进行了版权登记;其次,罗斯实际复制了受版权保护的头注内容,经过专家报告和证据确认,罗斯使用的Bulk Memos数据集与Westlaw头注高度相似,构成了实质性相似;最后,罗斯未能成功主张合理使用,其开发竞品的营利目的和使用方式缺乏转换性,可能对汤森路透的市场产生影响。

(二)全面驳回了罗斯的所有抗辩理由,认定其无法免除侵权责任

首先,无意侵权抗辩不适用,因为Westlaw头注明确标注了版权声明;其次,版权滥用抗辩缺乏证据,罗斯未能证明汤森路透滥用版权以打压竞争;对于合并原则和场景原则,法院认为头注的表达方式并非唯一,仍可以成为版权保护的客体,因此驳回相关抗辩;最后,在合理使用抗辩中,法院评估了使用目的、作品性质、使用范围及市场影响,认为罗斯的商业性使用对汤森路透市场会造成实质性影响,不符合美国版权法上合理使用的认定标准。

三、案件评析

1976年美国《版权法》第107条中阐明了适用“合理使用”原则的四项基本标准:(1)使用的目的和性质,包括是否出于营利目的或非营利目的;(2)受版权法保护的作品的性质;(3)被使用部分的数量和重要程度对于被使用作品的整体情况;(4)这种使用对于被使用作品的潜在市场或者作品的价值的影响。下文将聚焦合理使用四项原则,分析本案情况并延展相关思考。

(一)使用目的和性质

在评估合理使用的第一要素“使用的目的和性质”时,法官分析了罗斯使用行为是否为营利性使用和是否属于转换性使用两个方面。首先,法官确认罗斯的使用具有营利性质,罗斯也明确承认通过使用受版权保护的材料出于营利目的且未支付授权费用。法官指出,尽管营利性使用并非决定性因素,但其在合理使用判断中起到重要作用,特别是在与其他因素综合考虑时,营利性通常会削弱判定为合理使用的可能性。其次,法官接着分析了转换性使用这一标准。转换性使用不仅仅是对原作品的复制,更是赋予其“进一步的目的或不同的特征”。在本案中,罗斯利用技术创新创建了与Westlaw竞争的法律研究工具,但是该人工智能工具并非生成式人工智能,即它并不创造新的内容,而是通过输入已有的法律问题,返回已有的司法意见,这与Westlaw的功能高度相似,因此法官认为该使用并未对头注添加新的特征或目的,缺乏对原作足够的转换性。

罗斯辩称其只是将头注转化为数值数据供人工智能使用,即复制仅发生在中间步骤,最终产品中并未直接包含头注。对此法官指出,尽管在一些计算机程序的合理使用分析中,中间复制曾被认为符合合理使用,例如,在Google案[1]中,Google复制Oracle的代码是为了实现程序间的兼容性,因此最高法院认定Google为合理使用。在Sony案[2]中,法院认为复制源代码以创建一个让人们在个人电脑上而非单独的索尼游戏机上玩索尼游戏的产品是具有转换性的。这些案例属于“为了必要的创新”而进行的复制,涉及的是计算机功能性代码的复制,和本案中文本作品的复制存在本质区别,因此这些关于中间复制的判例并不适用于本案。

经本案发现,在判断合理使用时,转换性使用对营利性目的具有“催化作用”,即增强或减弱营利性因素对合理使用认定影响的作用,转换性程度越强,作品对原作的依赖程度越低,即使具有营利性质,其被判定为合理使用的可能性也越大。本案对于营利性目的的扩大适用也提醒我们,“法以社会现实为调整对象,所以,社会现实是第一性的,法是第二性的”[3]。随着人工智能技术的飞速发展和广泛应用,人工智能数据训练已成为推动科技创新和社会进步的关键路径,若仅将合理使用限定为非营利性用途,将会极大抑制社会创新的积极性。美国学者Edward Lee最早提出了“技术性合理使用”概念[4],并将它作为合理使用的一种类型,涉及为了新的目的或增值目的,在技术创造、运行、产出过程中使用版权作品的行为。除了美国理论与实践的导向外,日本《著作权法》已经将生成式人工智能训练数据使用归入“计算机信息处理”行为,纳入合理使用范畴,我国《人工智能法(学者建议稿)》第二十四条关于人工智能数据合理使用的条款规定“人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据合理使用。”这些举措均以实现社会整体效益最大化为核心要旨,释放出了推动以人工智能为代表的新技术新产业发展的强烈信号。

(二)受版权法保护的作品性质

第二因素关注的是被引用作品的性质,特别是作品的独创性。本案法官指出,Westlaw的材料满足了美国版权法所要求的最低限度的创作性标准,但其独创性相对较低。虽然头注的编辑需要一定的创意和判断,但这种独创性远低于小说家或艺术家从零创作的作品。此外,关键词系统本质上是一个事实汇编,因此其独创性受限。法官在2023年的意见中已表达了类似的观点,但由于存在关于独创性程度的事实争议,法官未直接授予简易判决。现在,法官认为已不存在事实争议,头注的独创性虽然得到确认,但其独创性远不如其他同类型的作品。综上,法官认为第二因素倾向于支持罗斯,但第二因素在合理使用的判定中通常不会起到决定性作用。

在实践中,数据库训练的来源可归纳为以下三个方面:一是来自于公有领域的内容;二是通过与版权人一对一签订授权协议或者通过集体管理组织合法授权获得的内容;三是利用“爬虫”技术爬取的网络数据,这也是生成式人工智能技术最常用的数据收集手段[5],内容几乎涵盖所有能收集到的人类数字化信息,包括公共数据、网络信息、数字化图书、自媒体对话数据集、报纸杂志、科学论文等[6],如何确保人工智能数据训练的合法合规来源成为目前实践中亟待解决的问题。在人工智能的数据训练过程中,收集的数据涵盖了文本、图片、视频、音频、代码等多种形式,由于版权保护的门槛较低,这些形式的表达通常能够满足“独创性”标准,无需申请或办理特殊手续,便可自动获得保护。本案和数据爬取的现实情况均表明,人工智能训练数据的收集过程极易跨越版权保护红线,为了确保合法合规,企业必须建立有效的数据管理体系,严格审查数据的来源和授权情况,规避因数据收集不当而导致的侵权纠纷,从而为新技术行业的健康可持续发展奠定坚实基础。

(三)使用的数量和重要性

第三因素关注的是被使用部分的数量和重要程度对于被使用作品的整体情况。法官在评估时考虑了复制的部分是否相对于整个作品而言是“合理的”,并且是否符合复制的目的。法院通常会综合评估“使用材料的数量”和“其质量及重要性”,为了在这一因素上获得支持,复制方必须避免使用作品的“核心部分”。在本案中,罗斯辩称“最终向用户展示的是司法意见,而非Westlaw的头注”,因此法官认为“原作的体现感较弱”,进一步确认第三因素对罗斯有利。法官认为,关于“复制中使用的部分数量和重要性”的讨论,并非本案的关键,重要的是“通过复制所呈现给公众的部分是否可能成为与原作竞争的替代品”。由于罗斯并未将Westlaw的头注公开给公众,因此这一因素对罗斯的判定有利。罗斯还辩称“所使用的头注数量仅占Westlaw总头注的少部分”,但法官认为这一观点并不成立。法官以Campbell案[7]为例,如果从福特总统的回忆录中摘取300字就可视为“拿走了作品的核心部分”,那么从Westlaw中摘取几千条头注也应如此判定,因此明确指出,复制总作品的比例并非判断第三因素的必要条件或充分条件。尽管如此,最终法官仍认为,第三因素支持罗斯的合理使用抗辩。

2025年2月4日加州议会提出第412号《生成式人工智能训练数据和版权材料法案》[8],并于2月25日和3月10日分别进行两次修正,规定生成式人工智能系统的开发者必须记录并根据版权所有者的要求向其披露用于训练模型的任何受版权保护的材料,要求开发者在收到版权所有者书面请求后的7天内向其提供一份完整的清单,如果没有使用受版权保护的材料,开发者必须在30天内通知所有者。这一透明的量化清单有助于明确告知版权所有者的数据在训练中的使用数量、对于被使用作品的重要性以及预估其对原作品市场潜在影响程度,从而为判断合理使用提供重要依据。此外,在实践中,生成式人工智能与本案的人工智能检索工具存在本质区别,本案中的人工智能检索工具输入和输出的内容具有特定性,而生成式人工智能数据训练属于生产过程中的“学习积累”阶段,其输出结果具有不确定性,只有在最终输出与原作品构成实质性相似时,才可能涉及版权问题[9]。生成式人工智能训练数据集的开发具有阶段性、复杂性和规模性[10]的特征,数据来源复杂且数量庞大使得追溯每一项数据的出处变得困难,大规模的数据使用可能在实际操作中削弱对个别版权人权利的关注。然而,尽管数据清洗、处理与训练后的数据使用部分已经经历了某种形式的转化,当数据使用涉及原作的核心部分时,即使训练数据的比例较小,仍然可能对合理使用的判定产生重要影响。

(四)该使用对于被使用作品的潜在市场或者作品价值的影响

在合理使用分析中,第四因素被视为最重要的因素,其核心在于评估复制行为对原作品市场的潜在影响。这一评估不仅涉及当前市场,还需考虑可能的衍生市场,即原作者可能开发或授权他人开发的市场。此外,复制行为可能带来的公众利益也应纳入考量。在本案中,法律研究平台显然是原市场,而至少有一个基于数据训练法律人工智能的潜在衍生市场。法官此前将第四因素交由陪审团裁定,认为“罗斯的使用可能具有转换性,创建了一个与Westlaw不同的新型研究平台”。如果这一点成立,罗斯的行为便不会被视为Westlaw市场的替代品。然而,法官重新审视后,认为罗斯的最终目的是开发一个与Westlaw竞争的市场替代品。无论汤森路透是否利用这些数据训练其法律检索工具,罗斯的行为对潜在的人工智能训练数据市场已产生了足够的影响,足以影响合理使用的判断。此外,单纯的公众利益主张不足以为罗斯辩护。虽然公众有权访问法律信息,但法律意见已公开可得,单凭“公众对该主题的兴趣”不足以支持合理使用的主张。公众亦无权占有汤森路透对法律和司法意见的独创性解析内容。版权法旨在鼓励创新,特别是开发对社会有益的工具,如法律研究工具,其开发者应从中获得应有的报酬。汤森路透所创建的内容,罗斯完全可以通过自身研发,或雇佣LegalEase进行开发,而无需侵犯汤森路透的版权。综上所述,法官认为,第四因素显著支持汤森路透,进一步加深了合理使用的限制,强调了在该案中商业使用对原市场的潜在影响。

结语

本案法官指出,“合理使用是法律与事实的混合问题”,无争议事实将本案清晰地推向法律领域,因此最终应由法官而非陪审团裁定。在司法实践中,第一因素与第四因素是紧密相关的,使用者越是将复制的部分用于新的、转换性的目的,它越不是原作的简单代替或者可能的演绎,那么相应的,对原作应受保护的市场机会的危害就越小[11],汤森路透在第一和第四这两个最重要的因素上占优势,所以法官在整体上更支持汤森路透。

法官斯特凡诺斯·比巴斯(Stephanos Bibas)在该案的判决书开头写道:“聪者知其所是,慧者明其所非。智识非吾恒伴,偶得灵犀必紧握其踪——纵姗姗来迟,此番亦然。”[12](“A smart man knows when he is right; a wise man knows when he is wrong. Wisdom does not always find me, so I try to embrace it when it does––even if it comes late, as it did here.”)在人工智能不断的发展实践中,法律人也从不止步地上下求索,将社会整体利益作为首要考量,通过技术规制推动健康发展,法律与科技的共同进步,正引领人类走向一个更加公正与可持续的“数字文明”未来。

注释(上下滑动阅览)

【1】参见Google LLC v. Oracle America, Inc., 593 U.S. ___ (2021).

【2】参见Sony Comput. Ent., Inc. v. Connectix Corp., 203 F.3d 596, 599, 606–07 (9th Cir.2000).

【3】李琛.法的第二性原理与知识产权概念[J].中国人民大学学报,2004,18(1):95-101.

【4】参见 Edward Lee, “Technological Fair Use”, Southern California Law Review, Vol. 83, No. 4, 2010, p. 808.

【5】参见宋海燕、陈佩龄:《浅析ChatGPT训练数据之合理使用》,载微信公众号“金杜研究院”,2023年4月25日,https://mp.weixin.qq.com/s/KDHwR_l2A-HOElllka5kpg;段志超、蔡克蒙、蒋海楠、邹奕:《从ChatGPT看生成式AI的合规挑战与应对》,载微信公众号“汉坤律师事务所”,2023年2月23日,https://mp.weixin.qq.com/s/RhHCrZeHiiKTdoeLybctng。

【6】《DeepSeek来了!人工智能知识产权法律保护须强化》,载新华网,https://www.news.cn/tech/20250207/8dd7ab6332d34edfa2ce36e9c9e92c94/c.html。

【7】参见Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569 (1994).

【8】参见加利福尼亚州政府立法信息网(California LEGISLATIVE INFORMATION),https://leginfo.legislature.ca.gov/faces/billTextClient.xhtml?bill_id=202520260AB412,2025年3月14日访问。

【9】刘晓春.生成式人工智能数据训练中的“非作品性使用”及其合法性证成[J].法学论坛,2024,39(03):67-78.

【10】张涛.生成式人工智能训练数据集的法律风险与包容审慎规制[J].比较法研究,2024,(04):86-103.

【11】参见Thomas F. Cotter, Transformative Use and Cognizable Harm,12Vand. J. Ent.& tech. L.701,741(2010).

【12】此处使用人工智能(DeepSeek)英译中。

作者:孙那 陶玥竹

编辑:Sharon


来源:知产前沿

相关推荐