摘要:近年来人工智能(AI)技术不断迭代,由此引发一系列相关法律诉讼。据统计,美国已有40多起与AI相关的诉讼案件交由法院受理,部分案件有了判决结果,更常见的是案件拖延数年及原告被告的一次次上诉申诉。
近年来人工智能(AI)技术不断迭代,由此引发一系列相关法律诉讼。据统计,美国已有40多起与AI相关的诉讼案件交由法院受理,部分案件有了判决结果,更常见的是案件拖延数年及原告被告的一次次上诉申诉。
AI引发的争议主要涉及哪些主体和领域?法院针对相关法律如何判定?本文梳理近年来出版商、作者、艺术家、程序员、报刊媒体及作家协会等主体起诉AI公司的几起典型案例的审理、判决情况,为出版界在AI时代如何维权提供参考借鉴。
1 汤森路透打败AI初创公司
今年2月,美国特拉华州地方法院法官斯特法诺斯·比巴斯(StephanosBibas)对媒体与科技巨头汤森路透(ThomsonReuters)提起的版权侵权诉讼作出部分简易判决,认为致力于法律服务的AI创业公司罗斯智能(Ross Intelligence)的行为构成侵权,汤森路透胜诉。
该案于2020年提出,是首批涉及AI工具合法性及训练过程的案件之一。诉讼的核心问题是,AI工具是否可在未获得授权的情况下,使用从其他地方抓取的版权数据进行训练。
汤森路透指控罗斯智能未经许可复制其旗下法律研究平台Westlaw的内容。汤森路透认为,Westlaw平台上包含了大量受版权保护的法律资源(如人工编辑的法律要点摘编和批注)及大量不可版权化的材料(如法律判决)。
罗斯智能成立于2015年,2017年获得大成律师事务所870万美元投资。2019年该公司推出首款AI律师产品,迅速获得美国律师协会(ABA)的认可。然而,该AI产品成为此次诉讼的焦点。
判决书指出,在构建法律研究搜索引擎时,罗斯智能将Westlaw的注释和批注转化为数值数据,分析法律词汇之间的关系,以此作为AI训练的数据源。在汤森路透拒绝授权其使用Westlaw内容后,罗斯智能转向另一家公司LegalEase,购买2.5万份由律师基于Westlaw批注编写的问题和答案,并将其用于训练数据。
审理该案的比巴斯法官驳回了罗斯智能的所有抗辩理由,尤其针对“合理使用”(fairuse)这一核心争议。合理使用原则是AI公司应对版权侵权指控的主要法律依据,为其未经许可使用受版权保护作品提供了法律豁免权,如创作模仿作品、用于非商业研究或进行新闻制作。法院通常依据4个要素判定合理使用是否成立,包括使用目的、原作性质(如诗歌、非小说、私人信件等)、使用受版权保护作品的数量,以及对原作市场价值的影响。法官裁定,罗斯智能通过复制Westlaw的内容,意图开发与Westlaw竞争的市场替代品,不符合合理使用的标准,且罗斯智能的使用直接影响了Westlaw的市场价值,构成侵权。在裁决前,罗斯智能已受到官司影响,因诉讼成本过高于2021年倒闭。
案例解读
康奈尔大学数字与互联网法教授詹姆斯·格里梅尔曼(JamesGrimmelmann)认为,若该判决被其他法院援引,对生成式AI公司将非常不利。比巴斯法官的判决表明,生成式AI公司用来辩护的很多案例法可能不再适用。沃博邦德迪金森(WombleBondDickinson)律师事务所合伙人克里斯·曼门表示,该案例将使AI公司在合理使用辩护中面临更多困难,法院将倾向于判定合理使用原则不适用。尽管如此,很多有经济能力的科技公司,如OpenAI和谷歌等公司,仍在与原告激烈争辩,进一步拉长了诉讼周期。2 程序员起诉AI公司侵权
2022年11 月,四名程序员原告(代号“J. Doe”)针对 GitHub、微软和OpenAI发起集体诉讼,提出22项索赔,声称OpenAI开发并授权给微软的AI系统Copilot使用托管在GitHub上的开源软件,该软件建议其他程序员用户使用公共项目的片段。原告认为,此举侵犯了原创作者的知识产权,被告未对其劳动成果给予相应认可,也没有遵守原始许可证的其他条款要求。
《数字千年版权法》(DMCA)第 1202条侵权条款规定,不得在未经许可的情况下删除关键的“版权管理”信息,应明确列出代码由谁编写以及使用条款。
被告提出动议,要求法庭驳回指控并基本得到法官约翰·泰迦(Jon Tigar)的支持。在庭审中,泰迦法官引用研究中的观察结果,即Copilot在良性情况下很少直接提供记住的代码,大多数原样照搬发生在用户提示模型使用与训练数据非常相似的长代码片段的情况下,因此上述条款并不适用。这一判决导致原告撤回指控并作进一步修改。
事实上,GitHub已于2023年调整Copilot相关设置,确保生成代码建议时对训练代码作出细微调整,以防止输出内容时被指控为直接照搬许可软件片段。
程序员坚称,Copilot仍会生成与其亲手编写的代码完全相同的建议,这也成为他们诉讼期间的核心论点。他们在指控中提出,如果用户关闭Copilot的反复制安全开关,即可引发非法代码复制。他们还引用一项关于AI生成代码的研究,用其中列举的Copilot 剽窃源代码证据支持自己的立场。
但法官再次表示反对,称无法认定微软的系统以具有实际意义的方式剽窃他人成果,判定GitHub、微软及OpenAI胜诉。2024年,原告代理律师事务所约瑟夫·萨维里律师事务所及其共同律师向美国第九巡回上诉法院提起上诉。此次上诉的核心问题在于,根据《数字千年版权法》相关规定,责任是否仅限于“从作品的相同副本中删除或更改版权管理信息”。这直接影响到科技公司使用受版权保护的材料进行AI模型训练时的法律责任界定。至今此案仍在审理中。
案例解读
这一诉讼结果将对整个科技行业产生深远影响。如果法院认定GitHub等公司的行为构成侵权,那么将对科技公司使用受版权保护的材料进行AI训练提出更高要求,他们需要更谨慎地处理版权问题,以避免潜在的法律风险,因此将加大版权合规方面的投入,AI技术的发展速度将受到一定影响。如果法院认为GitHub 等公司的行为不构成侵权,那么将为科技公司使用受版权保护的材料进行AI训练提供一定的法律依据,并推动AI技术的更快发展。3 AI图片生成软件公司被起诉
2022年,萨拉·安德森等3位艺术家指控AI公司Stability AI、艺术家作品集平台DeviantArt和AI绘画工具Midjourney公司通过AI图片生成程序,爬取他们发布在网络上的图片作品,删除相关版权管理信息,并按照用户指令生成类似的AI图片,侵犯其包括著作权在内的多项财产性权利。
在起诉书中,艺术家指控Stability AI公司向大规模AI开放网络LAION付费,抓取逾50亿张受版权保护的图片作为AI图片生成开源引擎Stable Diffusion的训练资料,并以此为基础开发了根据用户的文字指令生成相应AI图片的人机界面DreamStudio;指控DeviantArt的DreamUp工具使用的Stable Diffusion中包含原告受版权保护的作品;指控Stability AI通过网络抓图方式训练图像应用Stable Diffusion,构成转承侵权。
该案件的核心指控包括:AI模型训练涉嫌非法使用版权作品、移除版权信息(CMI)、利用艺术家姓名进行商业推广。之后双方围绕这些法律争议进行了多轮动议交锋。
2023年10月,美国北加州地区法院公布判决结果,以清晰性和具体性不足为由,驳回原告的大部分起诉。法院认为,原告对Midjourney直接侵权指控不明,无法初步断定是否违法使用原告受版权保护的作品,因此要求Midjourney提供事实说明对其AI服务进行何种训练。法院要求原告修正诉状,说明被指控侵权的衍生作品与原始作品有哪些相似之处,或包含原始作品的哪些受保护元素。
随后,2023~2024年间法院多次开庭审理,针对不同指控作出裁决。下一次开庭时间为2027年4月。
针对《数字千年版权法》违规指控,法院认为,模型输出不等于复制品,《数字千年版权法》保护范围不延伸至衍生或重构内容,因此判定原告未能证明AI输出与原始作品“完全相同”,且未提供具体CMI被移除的证据链,驳回了《数字千年版权法》违规指控。
针对公开权与虚假背书这一指控,法院初步裁定,Midjourney的“风格列表”与作品展示可能导致消费者混淆,虚假背书成立,索赔可继续审理。但法院认为,艺术风格本身不受保护,若直接使用姓名推广产品,需进一步举证“商业关联性”,因此部分驳回了公开权指控。
现阶段审判的关键是,原告要提供AI模型是否存储了“压缩版”版权作品作为直接侵权核心证据,此外,艺术家姓名使用是否实质影响消费者选择成为判定虚假背书的关键。
案例解读
该案原告的核心主张是被告的版权侵权及诱导版权侵权行为。法院要求原告和被告分别提供相关证据和事实说明。此案的裁决不仅是版权法的试金石,更将重塑AI与艺术创作的规则边界。此外,Stability AI公司已向内容创作者作出让步,允许艺术家自主选择作品是否退出下一个版本的Stable Diffusion。但是此“选择退出”条款受到艺术家诟病,认为它削弱了对版权人的保护。4 《纽约时报》等诉OpenAI
撕开AI数据抓取法律防线
2023年12月和2024年4月,《纽约时报》《每日新闻》分别对OpenAI的语言模型LLM、ChatGPT以及微软由GPT-4驱动的必应聊天工具Bing Chat提起诉讼,指控微软和OpenAI逐字逐句地复制其数百万篇文章,将其用于训练大模型。同时指控被告将GPT技术与微软必应搜索结合,使大语言模型以自然语言回答查询时绕过原告网站直接重述或引用原告作品,削弱了用户访问原告网站的必要性。《纽约时报》因此遭受了订阅、许可、广告和关联收入的损失,而被告节省了数十亿美元的成本,同时增加了自身的市值。
从法律依据看,《纽约时报》援引《美国版权法》,主张被告行为构成直接侵权、替代侵权、贡献侵权和增值侵权。还指控被告违反了《数字千年版权法》,删除或修改了版权管理信息。
因此,原告《纽约时报》对被告提出商标侵权、不正当竞争等主张,要求获得法定损害赔偿、实际损害赔偿、利润返还和律师费;并要求永久禁止被告继续侵权行为,销毁所有包含《纽约时报》作品的GPT或其他LLM模型在内的培训数据集。
美国纽约南区联邦法院今年3月作出裁决,驳回OpenAI请求撤销《纽约时报》等媒体版权诉讼核心指控的动议,案件的审理裁决围绕四大焦点展开。
一是版权侵权与诉讼时效。OpenAI曾主张《纽约时报》等媒体对2019~2020年的训练数据使用行为“早应知情”,但法院认为原告无法在三年前预见ChatGPT的侵权风险,故相关指控未过时效。此外,法院认可原告对“帮助性侵权”的初步举证,即AI工具可能被用户用于生成侵权内容,而OpenAI对此有理由知情。
二是《数字千年版权法》与版权信息移除。针对《每日新闻》和调查报道中心(CIR)的指控,法院认定OpenAI在训练阶段使用特定算法剥离文章作者、版权声明等信息,可能构成故意移除版权管理信息。此外,AI输出的片段因不构成“完整作品副本”,所有关于“分发侵权副本”的指控均未获支持。
三是商标淡化与州法争议。法院认定《每日新闻》等媒体已形成全国性驰名商标地位,支持其商标权益主张,驳回了OpenAI及微软的动议。
四是被驳回的指控。CIR关于“删节内容侵权”的主张因摘要与原文无实质相似性被驳回;所有原告的“普通法不正当竞争”指控因受《版权法》优先适用而被排除。
案例解读
此案的裁决意味着AI公司使用新闻内容训练模型是否构成侵权、生成式AI输出是否蚕食原创内容市场等争议,将进入实质性司法审查阶段。这场诉讼首次撕开了AI数据抓取行为的法律防线,为新闻业争取到了直面技术冲击的司法战场。随着案件的推进,关于“合理使用”边界的拉锯战或将重塑内容创作与AI开发的底层规则。5 美国作协诉OpenAI侵权
科技公司转向寻求合作
2023年9月,美国作家协会以及包括《权力的游戏》原著作者乔治·马丁在内的17位美国著名作家在纽约南区联邦法院递交起诉状,对OpenAI发起集体诉讼。至今,该案仍在审理中,很多作者不断向联邦政府和各州政府提出法律索赔。
原告在起诉状中称,OpenAI在未经授权的情况下,使用原告作家的版权作品训练其大语言模型,使其大语言模型可以基于这些未经授权的小说输出相应结果,并可能生成总结、复述,以及模仿这些作品的衍生作品。原告基于美国《版权法案》,认为OpenAI侵犯了原告作家的版权并寻求获得赔偿。
美国作协提出了两点主张。一是OpenAI构成了版权侵犯。为证明被告进行版权侵犯,原告需要论证被告存在实际复制版权所有者作品,以及被告作品与原告作品中需要保护的元素存在实质性相似。为此,原告在起诉状中介绍了生成式AI及大语言模型的原理。其中描述了大语言模型“在定义上涉及到对于整部作品或作品中关键部分的复制”,以及“训练这一词汇是对复制和消化的委婉表述”。原告还提到书籍是训练大语言模型的高质量文本材料。
二是OpenAI存在主观故意侵犯。原告论证OpenAI存在对原告版权的主观故意侵犯。为论证被告的侵权行为存在主观故意,原告需要证明:被告实际意识到侵害行为,或者被告的行为罔顾或者主观忽视版权所有者的权利。为证明OpenAI存在主观故意将版权作品用于ChatGPT的训练,原告在起诉状中聚焦ChatGPT训练数据集的来源合法性,指出OpenAI承认其需要并使用了大量公开渠道来源的数据集,而该类数据集中包括了版权书籍。原告认为,虽然OpenAI未公开发布ChatGPT训练数据集的准确来源,但OpenAI承认其训练数据集主要通过网络公开爬取而收集。部分训练数据集可能包括从Library Genesis、LibGen、Z-Library等盗版在线书库下载的盗版电子书籍。考虑到电子书籍数据的有限性,以及ChatGPT不断升级迭代对于海量以及更复杂训练数据的需求,原告认为,OpenAI不可避免地要从这些在线盗版书库中获取相关数据。
原告还引证了ChatGPT可以生成版权书籍的原文片段。虽然目前ChatGPT已被改进,无法直接生成原文片段,但ChatGPT仍可生成版权书籍的梗概。原告认为,该类梗概中包括了在文学评论及公开资料中无法了解的细节,这仍可证明OpenAI将整本版权作品用于训练模型。
根据美国《版权法案》相关规定,故意侵犯还可能构成犯罪行为而被告需要负刑事责任。原告在事实陈述部分强调了OpenAI通过AI模型获利的性质,介绍了OpenAI开发的几代ChatGPT产品,并再次强调了其通过收取会员费用进行技术盈利的特质。
原告论证了ChatGPT对原告作者的损害,ChatGPT和大语言模型将严重威胁到作家的生计。原告列举了一些证据,证明ChatGPT将在未来取代大量的劳动力,并且作家通过版权作品、新闻报道及内容写作获得的收益将受到ChatGPT影响而减少。另外,原告认为,ChatGPT生成的版权作品梗概为版权书籍的衍生作品,ChatGPT还将生成其他类型的衍生作品,包括一些雷同的低质量小说,以及模仿小说作者口吻与ChatGPT对话的商业生态等。这类衍生作品也将对作者的生计和收入产生重要负面影响。
除以上的共同事实主张,原告在起诉状中还详细描述了每位原告成员的指控,来显示OpenAI使用版权保护作品训练大语言模型生成酷似作者原著的内容。
案例解读
以美国作协为首的原告向科技公司发起一次声势浩大的挑战,此前美国作协曾与谷歌针对扫描图书案有过较量。虽然目前案件尚无进一步进展,但科技公司已经转向与出版商和作者合作,签署协议并获得对其版权作品的AI训练权。6 Meta训练AI “合理使用”辩护遭质疑
2023年7月,理查德·卡德雷等作者向美国加州南区法院提交起诉,指控Meta将数百万作者作品用于训练大语言模型LLaMA,同时指控Meta从安娜的档案(Anna’s Archives)和LibGen等盗版网站获得版权保护内容,提出版权侵权等多项索赔。LibGen存储库包含数百万种盗版书籍,并通过点对点种子网络进行分发。Meta则辩称其行为属于“合理使用”,旨在通过学习生成原创内容。
2023年9月,Meta提出驳回动议,请求驳回原告除版权直接侵权以外的其他索赔。对于版权间接侵权指控,被告认为,原告未能证明语言模型的表达与原告书籍存在实质性相似,且原告未能指出具体的侵权输出。对于移除版权信息及提供虚假版权管理信息(CMI)的指控,被告认为,原告没有具体指明被告移除或者提供了哪些虚假CMI,因此未能提出有效主张。
2023年11月,法院批准了被告的2项驳回动议。原告主张被告模型是侵权的衍生作品,因为模型不可能在没有从原告书籍中提取表达信息的情况下运作。法院认为,演绎作品是“基于一个或多个先前存在的作品”,以“作品可以被重铸、转换或改编的任何形式”存在。原告主张,“被告大语言模型的每个输出都是侵权的衍生作品,每个输出行为都构成了版权间接侵权行为”。原告认为不需要证明输出和权利书籍之间存在任何相似之处,因为其书籍在模型训练过程中被完整复制。法官援引艺术家诉Stability AI等案2023年10月的裁定(被指控侵权的衍生作品仍必须与原始作品有一些相似之处,或包含原始作品的受保护元素)认为,原告在诉状中没有对任何输出内容提出指控,不可能有间接侵权,原告需要明确并证明输出“以某种形式包含”原告书籍的一部分。
法院驳回了原告提出的《数字千年版权法》违规索赔,因为没有事实支持Llama曾分发过原告的书籍,也没有在移除版权信息的情况下分发。此外,因版权先占原则,还驳回了基于版权直接侵权行为提出的UCL索赔、不当得利和疏忽主张。
2024年8月,原告提交第二次修订诉状,仅保留版权直接侵权指控。案件目前仍处于证据发现程序,没有更新进展。
此案的核心争议在于Meta训练大模型的做法是否符合合理使用原则。Meta声称,使用受版权保护的作品来训练生成式AI模型属于“转换性使用”,即通过新的方式或目的使用原作,从而产生不同的价值,符合合理使用第一要素。而作者方面认为,使用版权作品训练生成式AI模型不具有“转换性使用”的性质,因为这种使用方式与教育人类作者没有本质区别。此外,这种训练的目的是创建与被复制作品在同一市场竞争的作品,使这种使用方式具有“商业性”。
今年3月,美国加利福尼亚州北区联邦地区法院法官文斯·查布里亚(Vince Chhabria)裁定,侵犯版权的指控显然是足以成立的具体伤害,而Meta删除版权管理信息的做法为其侵犯版权的行为提供了便利和隐瞒,足以构成诉讼的具体损害。《美国法典》相关规定要求,未经版权所有者或法律授权,任何人不得故意删除或更改任何版权管理信息。原告还提出,Meta 采取其他措施降低Llama生成输出的可能性,这些输出会揭示或表明受版权保护的材料包含在训练数据集中。这些指控提出了一个“合理的,如果不是特别有力的推论”,即Meta删除了版权管理信息以阻止Llama 输出这些版权管理信息。
查布里亚认为,目前最大的问题在于Meta的AI工具是否会损害图书销售,或给作者带来损失。他在听证会上表示,尽管愿意让案件继续推进,但对这些特定指控持保留态度。
案例解读
法官认定,Meta删除版权管理信息为其侵犯版权行为提供了便利和隐瞒,足以构成诉讼的具体损害,是对受版权保护的作者及其作品利益的维护,体现了在AI领域司法实践的新发展。但是,原告需要提供充分数据证明其对Meta输出内容的指控,这对于判断Meta使用受版权保护作品训练大模型是否符合合理使用原则至关重要,也成为法院庭审时一直悬而未决的焦点。以上6起诉讼案涉及不同的原告和被告,足以引发多方面的思考。从技术角度看,AI模型训练需要大量数据,这些数据的来源和使用方式是个关键问题。如何确保数据的合法性、准确性和可靠性,以及如何在数据使用过程中保护知识产权,是科技公司要面对的挑战。
其次,从法律角度看,现有的知识产权法律体系面对AI技术快速发展存在一些不适应的地方。立法者能否尽快修订相关法律法规,以明确科技公司使用受版权保护材料训练AI时的权利和义务,成为摆在政府面前的一大考验。
从社会层面看,既要抓住AI等技术发展带来的契机,又要切实保护出版业的合法利益并为其可持续发展保驾护航,其中的挑战是各界需要直面的问题。
校 对:马 葵
编 辑:陈 麟
复 审:张维特
终 审:宋 强
© 中国出版传媒商报
来源:中国出版传媒商报一点号