摘要:在人工智能大模型技术快速发展的背景下,训练过程中使用受著作权保护的作品引发了著作权侵权争议。大模型训练中使用数据引发的著作权侵权纠纷,是我国和外国(特别是美国)法院需要共同应对的新问题。因为大模型生成的内容可能是对享有著作权的作品的抄袭或复制,所以能否依据合理
在人工智能大模型技术快速发展的背景下,训练过程中使用受著作权保护的作品引发了著作权侵权争议。大模型训练中使用数据引发的著作权侵权纠纷,是我国和外国(特别是美国)法院需要共同应对的新问题。因为大模型生成的内容可能是对享有著作权的作品的抄袭或复制,所以能否依据合理使用规则豁免大模型训练中的著作权侵权责任存在不确定性,而“豁免训练端、管住生成端”是更为合理与可行的方案。只要针对性开展执法,并允许著作权人对生成端可能出现的个案涉嫌侵权内容进行有效维权,就可以完全豁免模型训练中使用作品的著作权侵权责任。这样既能满足大模型训练对海量数据的客观需求,又能实现其与保护著作权人利益之间的平衡,同时也不会对著作权人造成实质性损害。
一、问题的提出
在人工智能大模型(以下简称大模型)技术的推动下,智能计算迈向新的高度。AI从“小模型+判别式”转向“大模型+生成式”,从传统的人脸识别、目标检测、文本分类,升级到如今的文本生成、3D数字人生成、图像生成、语音生成、视频生成。大语言模型在对话系统领域的一个典型应用是OpenAI公司的ChatGPT,它采用预训练基座大语言模型GPT-3,引入3000亿单词的训练语料,相当于互联网上所有英语文字的总和,570GB训练数据。在人工智能研发的诸多环节中,比较关键的一步是以海量信息作为对象进行数据挖掘与机器学习。根据2024年12月27日发布的《DeepSeek-V3技术报告》,DeepSeek大模型先是在14.8万亿个token的高质量数据上对DeepSeek-V3进行预训练,然后通过监督微调和强化学习来充分发挥其能力。开发GPT-4和DALL-E的OpenAI在2024年年初向英国政府提交的一份文件中称,“如果无法获得版权作品,我们的工具将无法运作”,这可能会阻碍人工智能技术的发展。但是,如果机器学习的内容是处在著作权保护期内的作品或由其转码而来的数据,就有可能侵犯他人的著作权。可能涉嫌侵权的行为包括两方面:一是在数据挖掘与机器学习过程中,可能收集并存储了作品,以及在数据挖掘前对所使用的作品进行加工、汇编等;二是利用大模型生成和输出的内容,可能复制或演绎了数据挖掘与机器学习中使用的作品。
当下生成式人工智能领域的版权纠纷大多发生在美国。据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院便已经受理了10起版权人起诉OpenAI、StabilityAI、Meta、Alphabet等生成式人工智能研发企业未经授权利用其作品进行模型训练的案件。通过CourtListener检索查询显示,这些案件都还在审理中,法院尚未作出最后的裁判。有评论认为,此类案件不排除最终通过商业谈判达成和解的可能性,其最终引发重大司法判例的概率并不大。
与美国在这一法律问题上的谨慎和保守态度形成鲜明对比的是,欧盟的《人工智能法》和我国相关行政部门更为积极地对大模型训练中的知识产权保护问题表明了立场,有的法院也迅速地审结了涉及人工智能生成内容侵害著作权纠纷的案件。比如,为了规范利用生成式人工智能技术向公众提供生成文本、图片、音频、视频等内容的服务,我国2023年8月15日起施行的《生成式人工智能服务管理暂行办法》规定,生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,“使用具有合法来源的数据和基础模型”,“涉及知识产权的,不得侵害他人依法享有的知识产权”,“提供和使用生成式人工智能服务,应当……尊重知识产权、商业道德”。这些规定似乎没有给我国生成式人工智能服务提供者的训练数据处理活动留下任何合理使用享有著作权保护作品的空间。如果严格按照这个办法执行,我国那些从事生成式人工智能大模型开发的企业无疑面临着很大的知识产权侵权风险。而2024年2月8日广州互联网法院仅仅在立案后一个月就对“奥特曼”系列形象的著作权人诉AI公司著作权侵权纠纷案(以下简称“奥特曼”案)作出了一审判决。在该已经生效的判决中,法院责令被告“立即采取相应措施,在提供服务过程中防止用户正常使用AI生成绘画功能时,生成侵犯原告著作权的图片”。这一判决一经公布,立即引起了生成式人工智能产业界(特别是大模型训练企业)的关注,并进一步引发了业内对大模型训练中使用数据的著作权规制路径的担忧和思考:其一,既然在个别案件中,人工智能生成内容(AIGC)可能抄袭人工智能训练所使用数据中包含的相关作品,从而构成著作权侵权,那么人工智能训练中未经许可使用他人作品,是否依然存在构成合理使用的可能性呢?其二,如果AIGC在大多数情况下与训练中使用的作品不存在实质相似,那么能否仅因个别案件中出现AIGC复制他人作品的情况,就一律要求大模型开发者为训练中使用作品取得著作权人许可或者承担支付使用费的义务呢?其三,如果将来的立法可以豁免人工智能训练中使用数据的著作权侵权责任,那么现行的著作权法律规则是否能有效地制止在个案中AIGC可能存在的侵害著作权行为?以及,为了阻止侵权结果的出现,法院是否应该责令大模型立即从训练数据中删除涉案的作品呢?就上述问题,本文将结合上述“奥特曼”案判决以及美国法院审理中的相关案件的初步裁决结论予以分析和评判。
二、人工智能训练中的作品使用存在构成合理使用的可能性
在人工智能技术迅速发展的背景下,关于人工智能训练中作品使用是否构成合理使用的问题,已成为法学界的重要议题。从实践层面来看,以“奥特曼”案为例,虽然原告曾提出被告未经授权利用作品训练大模型的指控,但法院并未就这一问题作出裁定,而是侧重于人工智能生成内容是否存在侵权行为。因此,该案件未能明确回答人工智能训练中作品使用是否构成侵权的问题。从理论层面来看,法学界对大模型训练中作品使用的法律性质进行了广泛探讨,部分学者认为在某些情况下,大模型训练中的作品使用可能构成合理使用,尤其是在技术创新和发展所需的法律框架下。因此,如何界定人工智能训练中作品使用的合法性,亟待深入分析研究。
(一)“奥特曼”案判决并未涉及人工智能训练中的作品使用
在“奥特曼”案中,虽然原告也指控被告“未经授权,擅自利用原告享有权利的作品训练其大模型”,并请求“将案涉奥特曼物料从其训练数据集中删除”,但是,原告并没有提供相应证据来支持这一指控和请求,相反,“被告提供了与第三方服务商(未知)签订的《订单协议》”等,证明被告“并没有使用案涉奥特曼形象进行训练”,而是“通过可编程接口的方式接入第三方服务商的系统,进而向用户提供生成式人工智能服务”,因此,法院并没有支持“原告将案涉奥特曼物料从其训练数据集中删除的诉请”。
可见,被有些媒体宣传为“全球AIGC平台侵权第一案”的“奥特曼”案,其实并未涉及业内最为关注的大模型训练使用作品是否构成著作权侵权的评判。所以,“奥特曼”案的判决无关人工智能训练中的作品使用,我们更不能认为这个案件最后作出的侵权判决的结论同样可以适用于人工智能训练中的作品使用行为。
从我国学界目前对此问题所做的研究来看,认为法院应该对人工智能训练使用作品的行为认定侵权的观点非常罕见。有学者从立法论的角度建议针对具有商业目的的版权语料数据输入和利用行为构建准法定许可制度,更多的学者则建议我国《著作权法》或者正在修改中的《著作权法实施条例》能够对此规定明确的“合理使用”例外,甚至有学者在其提出的《人工智能法(学者建议稿)》中对“数据合理使用”作了专门规定。但是,这样的立法或者修改法律的建议无法直接适用于目前已经出现的法律纠纷案件的解决。因此,有学者建议:鉴于当前著作权相关立法在数据挖掘与机器学习的问题上尚处于缺位状态,为应对实践需要,可以考虑从法律解释的角度入手,尽量将部分合理情形解释入现行合理使用的立法文本之内,对于营利性主体在数据挖掘与机器学习中的作品使用行为,作为应急之策,可以考虑对“科研”作扩大解释——虽然这存在一定的弊端。还有学者认为,虽然目前立法层面对大模型训练这一问题无明确规定,但司法层面是存在相关规则适用接口的——2011年12月20日最高人民法院发布的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8条规定的类似于美国版权法中合理使用“四要素分析法”在我国存在适用可能性。另有学者建议,为合法化数据训练中复制作品的行为,解决之道在于重塑复制权,而不是重塑合理使用,以“固定性+传播性”的构成要件定义侵犯复制权的行为,数据训练中对作品的复制可视为不具备“传播性”而不构成对复制权的侵犯。可见,无论是从立法论还是解释论的角度,我国不少学者都提出了应该对人工智能训练中的作品使用行为豁免其侵权责任的意见和建议。
总之,如果大模型训练中复制了他人享有著作权保护的作品的事实确凿,那么,尽管我国法院确实难以从现行《著作权法》的权利限制规则中找到明确豁免人工智能训练中使用作品侵权责任的依据,但为了促进人工智能技术的发展,我国的司法政策是否应该鼓励和支持作品权利人通过著作权侵权诉讼来阻止我国人工智能开发企业对海量数据的挖掘和使用,仍需谨慎对待。而美国法院在此类案件中已展现出来的原则立场和审理思路,值得我们认真分析和研究。
(二)美国法院的裁决曾倾向于存在构成合理使用的可能性
从事实层面来看,人工智能大模型训练主要涉及是否存在作品存储的事实而侵害他人作品“复制权”的行为。在Sarah Anderson诉Stability AI LTD案中,原告指控被告将从互联网上抓取的“训练图像”放入LAION数据集,然后用于训练Stable Diffusion这一人工智能软件产品的行为构成直接侵权,理由是Stability“下载或以其他方式获取了数十亿份受版权保护的图像副本,未经许可创建Stable Diffusion”,其使用这些图像来训练Stable Diffusion,并导致这些“图像被存储并以压缩副本的形式嵌入到Stable Diffusion中”。虽然被告反对原告所述的真实性,但被告也承认在训练和运行Stable Diffusion的过程中违反美国版权法的复制(copying)行为是否发生,在目前阶段尚无法确认。因此,法院并没有支持被告驳回原告直接侵犯版权的动议。但是,即便大模型训练中的作品复制行为是客观存在的,也有观点指出这一复制行为属于“中间复制”(是后续作品学习行为的前置环节)和“非公开复制”,并不受到版权法规制。比如,有学者认为,不同于传统著作权法中的作品使用,人工智能使用数据训练属于生产过程性的“中间使用”,应当将其界定为“非作品使用行为”而排除在著作权权利范围之外。这样的观点曾经体现在美国法院的裁决中。2023年9月25日,美国特拉华州地方法院就汤森路透(Thomson Reuters)诉罗斯智能(Ross Intelligence)案,作出了针对简易判决动议的驳回裁定。法院倾向于支持复制、利用版权作品用于训练AIGC模型构成合理使用,理由是符合“转换性使用”中的“中间复制”标准。
根据美国版权法,判断一个行为是否合理使用需要同时考量以下四个要素:(1)使用的目的和性质;(2)受版权保护作品的性质;(3)使用受版权保护的作品相关部分的数量和实质性;(4)使用对受版权保护的作品潜在市场的影响。其中第一个和第四个因素是最重要的。据此,2023年9月25日巡回法院法官Bibas对汤森路透诉罗斯智能案发表“意见备忘录”指出,“本案中虽然被告的使用无疑是商业性的,但是许多常见的合理使用都是无可争议具有商业用途的,所以我更关注的是这样的使用是否具有转换性”;“转换性使用是指传播与原作品不同的新东西,或扩大其效用,从而服务于为公众贡献知识这一版权的总体目标”。
在美国法院关于“中间复制”的判例中,如果被告的复制是为了开发全新产品的一个小步骤,尽管被告在输入端使用了复制的材料,但如果最后输出端的内容具有转化性,法院会认为被告的行为构成合理使用。比如,在Sony Computer Entertainment诉Connectix案中,被告使用索尼软件的副本对其进行逆向工程并创建一个新的游戏平台,用户可以在上面玩为索尼的游戏系统设计的游戏,法院认为这属于合理使用,理由是被告创造了“一种全新的产品”,而且“最终产品并没有包含侵权材料”。最高法院也引用了这些“中间复制”的案例,特别是在技术快速变革的背景下需要对合理使用原则作出调适。
据此,被告罗斯智能认为,上述“中间复制”的判例于本案是非常契合的。因为“它对原告标题的转化已经使其无法再被认出。首先,它在其数据库中接收批量备忘录。然后,它将普通语言条目转换为数字数据(numerical data)。接下来,它将这些数据输入其机器学习算法,用以教授人工智能有关法律语言的知识。这样做的目的是让人工智能能够识别并掌握问答的模式。然后,人工智能就能利用这些模式找到答案”。但是,原告认为被告所援引的“中间复制”的案例并不恰当,因为被告抄袭(copying)其材料“训练AI”是为了复制(replicate)它们,而且被告将涉案的标题翻译成数字数据是典型的衍生作品。被告进一步反驳认为:人工智能训练中使用原告的材料只是为了分析其语言模式,而不是复制Westlaw的表达;而这里的翻译,只是更广泛的转换性使用中的一个小步骤。
Biabas法官指出,如果被告对其活动的描述是准确的,即其将人类语言翻译为计算机可以理解的内容,仅仅是作为试图开发一种“全新”竞争产品的步骤之一,而最终产品既不包含也不输出侵权材料,那么它的行为与其援引的判例中的行为就高度相似,属于转化性的中间复制。Biabas法官的上述倾向性意见当然是有利于被告的。但是,他并没有得出最后的裁判结论,而是认为“中间复制的判例法是否会支持本案被告的使用具有转化性,取决于其行为的确切性质”,“这是一个重要的事实问题,需要由陪审团来决定”。
总之,从美国法院法官对上述案件发表的初步意见来看,利用他人作品用于训练AIGC模型是存在构成合理使用(符合“转换性使用”中的“中间复制”标准)的可能性的。但是,“其前提是相关模型仅是学习在先作品中自然语言内含的模式、相关性等,然后根据用户提问,输出不同于被训练语料作品的新内容;如果只是将原作品复制存储进大模型,然后以类似检索工具的方式,根据用户提问输出与原作品相同的内容,则无法构成合理使用”。这样的裁判思路和结论确实也符合公众对人工智能的一般理解和想象。生成式人工智能显然不应该是传统的互联网检索工具,更不能成为直接输出或传播他人享有著作权作品的盗版机器,否则就不应该称其为“人工智能”了,这样的“假人工智能”当然不应该被豁免著作权侵权责任。
三、“中间复制”规则适用于人工智能训练存在的不确定性
根据“中间复制”的裁判标准,要豁免人工智能训练中使用或复制他人作品的著作权侵权责任,需考察人工智能服务在内容输出阶段所生成的内容是否包含他人享有著作权保护的作品。然而,这种侵权责任的豁免仍可能存在很大的不确定性,因为这要求生成式人工智能开发者在技术上确保其开发的人工智能大模型不会在用户的要求下输出侵权内容。那么,在目前的技术条件下,人工智能开发企业能否做到这一点呢?我们可以通过观察我国和美国已经发生的若干诉讼案件,来进一步分析这个问题。
(一)ChatGPT/LLaMA生成内容抄袭原告作品的主张难以成立
在Paul Tremblay以及Sarah Silverman诉OpenAI案中,原告指控OpenAI复制了原告享有版权的书籍,并将其用于训练数据集,当用户提示生成每个原告所写的书的概要时,ChatGPT就会生成该书内容和主题的精确概要。法院首先考虑的是原告是否有充分的证据指控直接侵权。被告认为,原告尚未能指控直接侵权已经发生。原告认为,他们有被告存在“直接抄袭”的证据,因此不需要主张存在“实质相似”。法院认为,“显然,原告在此并未能指控ChatGPT输出了包含受版权保护书籍的直接副本。正因为他们没有能够指控直接抄袭的存在,他们必须证明ChatGPT所输出内容与受版权保护的材料之间有实质性相似之处”。但是,原告所称“OpenAI语言模型的每一个输出内容都是侵权的演绎作品”的主张并不充分,原告未能解释输出的含义,也未能指控任何特定的输出内容和他们的书籍是实质相似或完全相似的。既然直接侵权(direct infringement)并不成立,法院也当然驳回了原告版权替代侵权的(the vicarious copyright infringement)诉请——但允许其修改起诉书。在这个案件中,原告虽然也指控“OpenAI复制了原告享有版权的书籍,并将其用于训练”,但是,他们并没有直接的证据证明存在这样的复制或抄袭,法院通过ChatGPT生成内容与原告作品之间是否存在抄袭或者实质相似的分析,认为ChatGPT生成内容并非原告主张的非法演绎作品,不存在实质相似,所以驳回了原告的这一诉请。
类似地,在Richard Kadrey等人对Meta Platforms提起的诉讼中,原告关于被告创建和维护的大语言模型LLaMA使用其受版权保护的作品进行训练,以及根据用户提示词生成侵权演绎作品,因而构成直接侵权的主张也被驳回——但法官允许原告修改他们的起诉书。法官Vince Chhabria认为,原告以他们的书籍在LLaMA训练过程中被完整地复制,就不需要认定LLaMA输出内容与他们的作品之间存在任何相似性来主张侵犯演绎权,是难以成立的。
从上述案件的初步裁判结果来看,如果原告没有进一步的证据来证明存在直接复制或实质性相似,要赢得这一诉讼将会非常困难。即便原告最终能够证明存在直接复制,但是,根据“中间复制”的裁判标准,由于ChatGPT生成的内容与原告作品之间并没有实质相似之处或者不包含原告作品的独创性表达,不属于非法演绎,因此也就依然有可能符合“转换性的中间复制”的合理使用条件。
(二)DreamUp/Midjourney生成图片抄袭原告作品的主张难以成立
在Sarah Andersen等艺术家诉Stability AI、DeviantArt、Midjourney案中,原告指控被告Stability AI的人工智能软件产品Stable Diffusion在训练中使用了他们的作品——“数十亿张受版权保护的图像”,即“训练图像(training images)”。原告还指控Stable Diffusion向三被告的产品DreamStudio,DreamUp以及Midjourney提供图像生成服务,消费者只要在这些程序中输入提示文本,就能生成具有这些艺术家风格的图像。虽然原告承认“总的来说,没有一个根据特定文本提示词所输出的图像可能与训练数据中的任何特定图像非常匹配”,但原告还是主张“系统输出的每一个图像只能是从受版权保护的图像的副本中衍生出来,因此,每个输出的图像都必然是演绎作品”。
原告指控被告DeviantArt的DreamUp产品输出的图像属于侵权演绎作品,DeviantArt构成直接侵权。对此,被告认为,如果要充分证明这一主张,原告必须证明输出图像与受保护作品存在实质相似;但原告无法做到这一点,因为其多次承认“没有一个根据特定文本提示词所输出的图像可能与训练数据中的任何特定图像非常匹配”。而原告坚持认为,他们不需要证明实质性相似,也可以得出输出的图像必然是演绎作品的结论。审理该案的法官WilliamH.Orrick认为,DeviantArt是否存在抄袭或复制需要得到事实的充分支持;此外,原告也没有充分的证据证明,用于训练StableDiffusion的每个训练图像都是享有版权保护的,或所有DeviantArt用户的输出图像都依赖(理论上)受版权保护的训练图像,因而所有输出图像都是衍生的图像。该法官进一步指出,即使以上事实可以得到确认,并且原告将其指控范围限定为输出图像都是基于受版权保护的训练图像,法院仍不能在未提出“实质性相似”指控的情况下支持原告关于版权中演绎权的主张。根据被告提出的强有力的反驳,特别是考虑到原告承认输出图像不太可能与训练图像相似,法院认定应驳回原告主张的对其作品演绎权的侵害,且不允许其修改起诉书,因为原告不能有效地证明输出图像与受版权保护的训练图像存在实质相似,或者构成对训练图像的重新呈现(re-present)。对于原告主张的Midjourney输出的图像属于侵权演绎作品,进而指控被告DeviantArt构成直接侵权,该法院基于与上述相同的理由予以驳回。
总而言之,即使受著作权保护的图像作品被用于训练AI,也不能简单地认为人工智能生成的图像就是原作品的演绎作品(derivative work),原告还必须证明生成的作品和原作品之间具有实质相似性。因此,根据“中间复制”的裁判标准,因为本案原告难以证明生成的图像与训练图像存在实质相似,Stable Diffusion训练中使用享有著作权保护的作品依然有可能符合“转换性的中间复制”的合理使用条件。
(三)Copilot/ChatGPT生成内容对原告作品存在复述和抄袭
在《纽约时报》对Microsoft和OpenAI提起的诉讼中,原告指控被告的生成式人工智能工具BingChat(现已更名为Copilot)和ChatGPT依赖于通过复制和使用《纽约时报》数百万篇受版权保护的新闻文章所建立的大语言模型。在原告举出的一系列例证中,被告的人工智能生成工具所生成的内容,不仅有对《纽约时报》文章表达风格的模仿,以及对其文章的概括总结,而且还有对其文章的逐字逐句的复述。比如,在起诉书的第99和第100段,在对比了大语言模型GPT-4生成的内容和《纽约时报》文本后发现,根据用户提示词,GPT-4输出的内容对《纽约时报》作品中的大量内容近乎作了逐字复制。再如,在起诉书的第104段,ChatGPT用户因“付费墙”无法阅读(paywalled out)普利策奖得主的文章“Snow Fall:The Avalanche at Tunnel Creek”,而ChatGPT根据该用户提示词的要求输出的部分段落包括对该原文的逐字摘录。
虽然这个案件目前还没有进一步的裁判信息,但本文认为,在这样的证据面前,美国法院的法官可能不得不承认这些人工智能生成的内容确实存在对原告享有版权保护的作品的直接复制或者实质相似之处。因此,不仅这样的生成内容涉嫌侵权是没有太多疑问的,而且还会进一步影响甚至动摇法院按照“中间复制”思路认定人工智能训练中使用他人作品构成合理使用的信心。因为根据生成内容所存在的这种情形,人工智能训练中对数据的使用已经不仅仅是“中间复制”了,而是会在最后的生成端产生对训练数据的“终端复制”。
(四)“奥特曼”案判定生成内容与原告作品存在实质相似
事实上,在我国法院审理的“奥特曼”案中,法院认为,被告经营的具有AI对话及AI生成绘画功能的网站Tab,在用户要求其生成奥特曼相关图片时(如用户输入“生成奥特曼”“生成一张戴拿奥特曼”“奥特曼拼接长发”“奥特曼融合美少女战士”“生成插画风格的奥特曼”等提示词),其生成的奥特曼形象与原告享有著作权的奥特曼形象构成实质性相似,或者是部分或完全复制了原告作品“奥特曼”这一美术形象的独创性表达,或者是生成图片在部分保留原告作品独创性表达的基础上形成了新的特征,因此侵犯了原告作品的复制权或改编权。
虽然在这个案件中,被告是与第三方服务商签订协议购买接口,用户在被告平台使用“AI绘画”功能时实际上是调用了第三方服务商训练成型的AIGC模型,但是,原告并没有对被告所接入的大模型的提供者(第三方服务商)使用涉奥特曼形象进行训练的行为提起诉讼,法院也没有对训练AIGC模型的第三方服务商是否应该承担侵权责任作出任何评判,只是要求本案被告应承担“停止侵权,即停止生成的责任”。然而,从技术角度看,实现本案的停止侵权(停止生成)所需要采取的措施可以是中断“生成”图片步骤中的任何一步——包括“停止学习(删除数据集)”“停止接入(关闭接口)”或“停止生成(设置屏蔽词)”。就本案而言,法院没有明确必须从哪一步入手实现停止侵权(不生成侵权图片),只是“因被告未实际进行模型训练行为”而没有支持“将涉案奥特曼物料从其训练数据集中删除的诉请”。但反过来说,如果本案被告实施了“在AI训练中使用相关作品”的行为,依然不排除该法院有可能为了达到“用户正常使用与奥特曼相关的提示词,不能生成与案涉奥特曼作品实质性相似的图片”的目的,从而判决“停止在大模型训练中使用相关作品”的可能性。这显然是该案判决结果对大模型训练中使用数据行为而言所隐含的最大法律风险。
(五)人工智能可能生成侵权内容对合理使用带来的冲击
诚然,大模型的基本运作方式是“从数十亿的训练数据中提取抽象的概念和模式(concepts and patterns),并创造出不同于既有作品且不侵害既有作品权利的全新内容”,如有学者指出的那样,经过训练的机器模型,最终通常会产生与原始图像不同的新图像,因而这样的训练行为在大多数情况下都能通过以“中间复制”为标准的合理使用测试。但是,毋庸讳言,无论是基于现有大模型学习、训练本身所存在的技术层面难以克服的原因,还是基于人工智能服务提供者在提供内容生成服务过程中没有采取必要的防范措施或者没有尽到合理的注意义务进行规避的原因,依据现有大模型所生成的内容尚无法绝对避免再现或包含原始训练数据中他人可能享有版权保护的作品信息。比如,在一项以Stable Diffusion等AI扩散生成模型为研究对象的实验中,马里兰大学和纽约大学的联合研究团队发现,利用Stable Diffusion模型生成的内容中存在对训练数据集中作品的复制内容。
在人工智能大模型最终还是有可能向公众输出或提供包含他人享有著作权保护的作品的事实面前,无论是采取“中间复制”合理使用的测试标准,还是将人工智能训练中的使用数据理解为“非表达型机器学习”或者“非作品性使用”,都很难摆脱以下质疑:人工智能训练中使用他人作品的最终结果有可能实质性再现他人作品中的独创性表达,或者说“人工智能创作对于作品的使用显然属于表达性使用”,从而损害著作权人的正当利益。因此,豁免大模型训练中使用他人作品的著作权侵权责任,依然会面临强烈的反对意见。所以,2023年5月美国版权局前总法律顾问Jon Baumgarten在给众议院知识产权分委会的信中指出:Sy Damle(也是美国版权局前总法律顾问)将训练大模型的过程比作人类学习,因而适用“合理使用”原则的观点“可能是完全错误的”。此外,2025年2月11日Biabas法官对前述汤森路透诉罗斯智能案作出部分简易判决,驳回了被告主张的合理使用抗辩,其理由主要是罗斯智能的使用并不具有转换性,“因为毫无疑问,Ross的AI不是生成式AI(本身编写新内容的AI),Ross将Thomson Reuters的判例摘要用作AI数据的目的就是创建一种法律检索工具以与Westlaw竞争,它与Thomson Reuters的产品相比并没有新的目的或不同的特征”。尽管如此,Biabas法官也承认:“正如Ross所说,判例摘要并没有作为向消费者提供的最终产品的一部分出现,即Ross的复制发生在一个中间步骤:将案情摘要转化为有关法律词语之间关系的数字数据,并将其输入人工智能。这使得对合理使用的判断变得更加棘手。”总之,这一案件的特殊性在于被告的产品并非生成式人工智能,Biabas法官也强调其关于合理使用的观点仅限于非生成式人工智能。而且,Biabas法官在此似乎只考虑了被告的使用“目的”,忽略了使用中的“内容转换”,这样的观点是否契合生成式人工智能,有待进一步观察。即便是强烈支持在人工智能领域进行全面立法和监管的参议院多数党领袖查克·舒默(Chuck Chumer)所推出的《人工智能安全创新框架(SAFE Innovation Framework For Artificial Intelligence)》,也把“支持美国在人工智能技术方面的创新,重点是释放人工智能的潜力,并保持美国在技术方面的领先地位”作为其中的五个核心支柱之一。美国版权局前总法律顾问SyDamle更是直白地指出:“任何强制模型对于训练内容付费许可的尝试,要么会使美国AI行业破产,消除我们在国际舞台上的竞争力;要么会驱使这些头部AI公司离开这个国家。”
可见,在2024年年底之前即便是大模型的开发已经在全世界具有毫无疑问领先优势的美国,在其版权法已经提供了“合理使用”抗辩可能的情况下,也依然存在模型训练中的版权合规风险可能阻碍人工智能技术创新和进步的问题。
四、“豁免训练端、管住生成端”是更为合理与可行的方案
通过前文的分析,我们发现,如果总是拘泥于从法教义学的角度去讨论“合理使用”规则的适用条件,希望由此得出是否可以豁免大模型训练中使用他人享有著作权保护的作品的法律责任,其答案显然存在很大的不确定性。在广州互联网法院作出的“奥特曼”案判决中,虽然因被告未实施训练行为,该法院并未支持“将案涉奥特曼物料从训练数据库删除的诉请”,但是,反过来说,如果本案被告实施了在人工智能训练中使用相关作品的行为,那么,为了达到“不生成与案涉奥特曼作品实质性相似的图片”的目的,法院就依然有可能责令被告“停止在人工智能训练中使用相关作品”。对于人工智能大模型开发企业来说,这样的“可能”无遗总是悬在头顶的一把利剑。所以,面对人工智能技术相对落后的现实,我国的立法、司法和执法机关应该采取怎样的态度和立场,需要谨慎把握。在激烈的国际技术竞争面前,我们更不应该自我设限,而应该跳出既有“合理使用”规则的分析框架,寻找一个更为合理与可行的解决方案。
(一)“豁免训练端、管住生成端”与“中间复制”测试标准不存在根本冲突
如前文所述,利用他人作品用于训练大模型能够符合构成合理使用的“中间复制”测试标准的关键是人工智能生成的终端内容不含有他人作品的独创性表达。换言之,人工智能训练中的“中间复制”行为本身并不会对著作权人的利益带来实质性的损害,只要不生成侵权内容,就可以容忍人工智能训练中的使用行为。所以,构成合理使用的“中间复制”测试标准的实际意义在于避免人工智能生成侵权内容,而训练中的“中间复制”行为本身并不需要用著作权去禁止。“中间复制”虽然是美国判例法中针对使用作品行为是否构成侵权而提出的一种测试方法,但是,其背后的理据和逻辑并不复杂,事实上也是各国著作权法司法实践中普遍遵循的规则。比如在德国,如果对他人作品内容的使用产生了一个独立的新的作品——但又不同于作品演绎行为直接接收被使用作品的独创性表达,这种对他人作品内容的使用仅仅属于新作品的灵感来源,被使用的作品只是隐含在新作品中,并且与新作品相比原作品的精神内涵已经黯然失色——这种使用就属于德国《著作权法》第24条所称的“自由使用”而不会构成侵权。我国《著作权法》本身虽然不存在美国版权法中规定的合理使用规则或者德国著作权法规定的自由使用规则,但是我国法院在对于是否侵犯改编权的判断中也已经通过“思想/表达”二分法以及“实质性相似”标准等的共同作用实现了类似的规范功能。
如果我们可以达成这样的共识,那么,在目前的大模型难以避免其终端生成内容可能会在特定提示词的作用下再现训练数据中享有著作权保护的内容的现实下,剩下的核心问题无非就是:如果模型训练中的“中间复制”依然可以继续“合法化”,这时,著作权人的利益是否会受到损害或者说如何有效保护其合法权利?本文认为,只要能“管住生成端”,就可以“豁免训练端”,即,可以完全豁免模型训练中使用作品的著作权侵权责任,但允许著作权人对生成端可能出现的个案涉嫌侵权内容进行有效执法和维权。这样就可以实现人工智能训练客观需要海量数据(包括享有著作权的作品)与保护著作权人利益之间的平衡,而并不会对著作权人带来实质性损害。
有人可能会质疑:在大模型终端生成内容可能再现享有著作权保护作品的情况下,如果豁免模型训练中的作品使用行为,显然不符合“中间复制”的合理使用测试标准。但是,本文认为,如果仅仅因为某些个案出现生成端“再现”的情形,就得出所有人工智能训练中的作品使用都需要获得著作权人的许可,则会出现新的利益失衡——大模型的开发者不得不为生成端可能出现的个别“抄袭”现象而对训练数据中包含的所有作品“埋单”。这样的结论显然也不符合人工智能训练中的作品使用大多数属于“中间复制”的基本事实,也会使现有的大模型开发者面临巨大的法律风险。因此,只是因为个案存在的生成端“再现”问题而因噎废食,排除人工智能训练端的责任豁免,否认人工智能训练中存在的“中间复制”的合理性,必然会对我国大模型的开发和技术创新带来不利影响。
相反,即便一律豁免“训练端”使用作品的著作权侵权责任,也与“中间复制”测试标准不存在根本冲突。因为在生成式人工智能输出的海量内容中,“侵犯版权是极小概率的事件”。比如,2024年11月7日美国纽约南区联邦地区法院驳回了Raw Story和AlterNet针对OpenAI的版权诉讼。关于原告是否有资格提出禁令救济的请求,McMahon法官考虑到当用户向ChatGPT输入一个问题时,其直接输出从原告作品中抄袭内容的可能性非常之小,这种情况下,原告并不足以证明存在“重大风险”,因此无法对此提出禁令救济请求。事实上,生成式人工智能并不是现有的互联网检索工具或者网络传播媒介,它的核心功能意味着在绝大多数情况下并不是简单地输出或机械地复制已有的训练数据或作品,而是生成或“创造”出新的内容。即便存在生成端少数“再现”或抄袭训练数据或作品的情形,也无法改变人工智能训练中的作品使用大多数属于“中间复制”的基本事实。因此,只要能“管住生成端”,也就是一旦出现人工智能生成他人享有著作权保护的作品或者生成与他人作品实质相似的内容,著作权人能及时有效地制止这样的生成行为并获得足够的损害赔偿,同样足以维护著作权人的合法权益。如有学者建议:类似避风港规则中的“通知—删除”机制,生成式人工智能服务提供者应设立投诉举报机制,供权利人向生成式人工智能服务提供者发出侵权通知,生成式人工智能服务提供者在收到侵权通知后,应及时采取必要措施。比如,对提示词进行关键词过滤,阻止人工智能继续生成与权利人作品构成实质性相似的生成物。总之,如果“管住生成端”是可以实现的,那么,不管是谁对此承担责任——或者是人工智能产品或服务提供者,或者是使用生成式人工智能的用户,都将引导或迫使人工智能产品或服务提供者通过改进人工智能技术或采取技术措施尽力避免生成侵权内容,事实上很多负责任的人工智能产品或服务提供者也已经在努力避免这样的结果发生。我们并不需要过于担心因为“豁免训练端”而导致大模型会生成大量与著作权人的作品产生直接竞争的内容,只要“管住生成端”,著作权人的利益也能得到必要的维护。
需要说明的是:本文提出“管住生成端、豁免训练端”的主张,只是提醒我国法院当下在审理涉及大模型训练著作权侵权纠纷案件的时候,不能急于得出人工智能训练中使用作品的行为构成侵害著作权的结论。但是,“豁免训练端”并不意味着目前大模型开发者基于训练的需要购买相关数据是没有必要的;而且,对于人工智能训练中使用数据行为是否应该通过立法规定某种报酬请求权(如我国《著作权法》第45条)或者明确这样的使用属于复制权控制的行为并通过法定许可的方式收取使用费等制度安排,也依然可以进行是否存在必要性与可行性的理论探讨。此外,“管住生成端”也只是在AIGC输出与训练中使用的作品实质相似的内容的情形下,才能使《著作权法》发挥其应有的作用。然而,对于那些专门训练某一作者原创的特定风格作品的大模型,其输出的内容即便难以被认定为构成与训练中使用的原创作品在表达上的实质相似,但是因为其风格与原创作品极其雷同,依然可能在同类作品市场中导致对原作者竞争利益的损害,这时依然不排除依据《反不正当竞争法》对这样的行为进行规制——但这不是本文所要进一步研究和讨论的问题了。
(二)“管住生成端”的落地所面临的若干问题
如果“豁免训练端、管住生成端”是一个合理的方案,那么,接下来的问题就是,如何“管住生成端”?虽然广州互联网法院已经认定人工智能服务提供者应该为其经营的Tab生成与享有著作权保护的奥特曼形象实质相似的图片承担侵权责任,但是本文认为,这并不意味着如何“管住生成端”的问题已经有了清晰的答案。
第一个存在争议的问题是,如果人工智能生成的内容涉嫌侵权,那么究竟是使用生成式人工智能服务的用户侵权,还是生成式人工智能服务的提供者(人工智能训练模型的开发者或者人工智能产品提供者)侵权,或者二者构成共同侵权?在美国法院的诸多案件中,被告既有人工智能训练模型的开发者(如OpenAI、Stability AI)也有人工智能产品(如Copilot、Midjourney)提供者,而且他们有时候在一个案件中兼有两个身份(如OpenAI及其提供的ChatGPT产品,Stability AI及其提供的DreamStudio产品),有时候则是共同被告(如Stability AI和Midjourney);而“奥特曼”案中的被告只是人工智能产品Tab的提供者。显而易见,这些案件的被告都不涉及使用生成式人工智能服务的用户。但是,这并不意味着用户可以一概免责,如有学者所言,“就侵权生成物的产生而言,很难区分用户与生成式人工智能服务提供者在侵权过程中的贡献度”,“无法清晰地指出生成式人工智能服务提供者或者用户的行为与侵权结果之间的关系”。而2023年北京互联网法院在“AI文生图”著作权侵权纠纷案的判决中得出的用户可以对人工智能生成的图片享有全部著作权的结论,使得用户为人工智能生成的内容承担法律责任具备了更大的可能性,特别是在涉嫌侵权的生成内容对原告享有著作权的作品存在改编或演绎的情形。如果用户对人工智能生成的改编作品可以享有著作权的话,当然也必须为该生成内容可能存在的侵权承担法律责任。
第二个存在争议的问题是,提供生成式人工智能服务的产品根据用户的提示词生成相关内容提供给用户,如果该产品的提供者或经营者作为被告应该承担直接侵权责任,那么,其侵犯的是著作权人享有的哪一项专有权利?在“奥特曼”案中,法院仅支持了原告关于侵犯复制权和改编权的诉请,而没有支持其关于侵犯信息网络传播权的诉请。赞同“不侵犯信息网络传播权”的学者对此的解释是:大模型训练完毕后,数字复制件并不存在于模型中,在用户与人工智能的交互过程中,并不始终存在一个数字复制件可供用户获得,用户端所产生的作为数字复制件的生成物,也不是经由训练数据中的作品数字复制件传输而来,而是大模型根据用户指令独立生成。确实,大模型生成涉嫌侵权内容的行为与互联网环境下向公众提供作品的交互式传播行为无法简单等同起来,因此,法院没有支持原告的这一诉请也是可以理解的。但是,在人工智能生成的内容确实抄袭了(不管是机械复制还是演绎改编)原告享有著作权的作品的情况下,不管人工智能生成涉嫌侵权的内容是如何完成的,其根据用户的指令向用户生成或提供了涉嫌侵权的内容的事实是客观存在的,这样的提供行为其实更接近信息网络传播行为(在个人选定的时间和地点获得作品)的特征,只是因为每一个生成的内容是大模型根据用户指令独立生成,而这一生成内容只提供给了该特定用户,这样的提供行为又很难与信息网络传播的“公开传播”性质相符。那么,法院认定被告的行为侵犯了复制权,是否就符合法律规定了呢?该判决仅仅以被告经营的“Tab网站生成的案涉图片,部分或完全复制了奥特曼这一美术形象的独创性表达”为由,就直接认定其侵犯了原告的复制权,显然是把存在相同或实质相似意义上的抄袭或“复制(copying)”与产生作品复制件意义上的复制(reproducing)混为一谈了。这样的裁判结论显然没有考虑到该Tab网站只是在计算机终端生成了案涉图片,并没有向用户提供该图片的复制件——与互联网环境下交互式传播的情形其实是类似的。目前虽然不少(并非全部)生成式人工智能产品向用户提供在一段时间内暂时云存储生成内容的服务,用户可以对生成的内容再次进行浏览或查看,但这样的内容传输方式依然类似于交互式传播,我们无法认定人工智能服务提供者的提供行为构成对作品复制件的发行,最多只能追究其“云存储”行为侵犯复制权;如果人工智能产品选择不提供这样的“云存储”服务,侵犯复制权也就未必成立了。至于著作权人享有的改编权,在不同立法例中其内涵也并不一致,有的是用来控制改编本身(如我国),有的是兼用来控制对改编后的作品的利用(如英国),甚至有的国家(如德国)的著作权法中并不存在改编权,而只是禁止对改编后的作品的发表和利用——根据这样的规则,如果被告只是帮助用户生成了改编的内容,而无论是用户自己还是提供人工智能服务的被告都不存在对改编内容的进一步复制、传播和利用,也就难说这样的改编行为构成侵权了。最后,即便人工智能向用户提供生成内容的行为可以被解释为复制、改编或传播作品的行为,但如前所述,人工智能所“提供”的生成内容是根据用户需求一对一生成的,并不具有可重复性,也就是说这一内容仅限于该用户自己的私人欣赏或使用,而不会重复地向他人提供,因此,这就依然存在提出“个人使用”抗辩的空间。总之,以现有的著作权专有权利体系来规制生成式人工智能向用户生成和提供作品的行为,确实会存在各种捉襟见肘的难题。当然,如果用户自行在本地端完成下载、存储等复制或进一步转发等传播行为,那就必须对其复制和传播行为承担侵权责任。
第三个存在争议的问题是,如果法院可以认定生成式人工智能向用户生成和提供作品的行为构成侵权,人工智能服务提供者应采取怎样的措施才可以满足停止侵权的要求?在“奥特曼”案中,原告要求被告停止生成侵权图片,并将案涉奥特曼物料从训练数据集中删除。因为这个案件的被告并没有实施模型训练行为,所以法院直接驳回了原告“删除”的诉请,那么,如果本案的被告同时也是大模型的开发者,要求其在训练数据中删除相关作品是否为适当的停止侵权措施呢?本文认为,其答案也是否定的。首先,即便在技术上可以通过删除原始训练数据达到“停止生成”的目的,这样的技术措施将会使得大模型的训练数据库就会变得很不稳定,大模型的性能也会遭到极大损害,这样的措施不利于人工智能技术的进步。其次,如果“管住生成端,豁免训练端”的规制思路是合理的,那么,如果因为生成端偶尔出现了侵权内容,就去追究训练端的责任,又将回到训练端的使用也需要获得著作权人授权的思路上去,这样的要求会对人工智能大模型开发企业带来过高的合规成本。如广州互联网法院在“奥特曼”的判决中所言,“考虑到生成式人工智能产业正处于发展的初期,需要同时兼顾权利保障和产业发展,不宜过度加重服务提供者的义务”。所以,该案判决也只是要求被告承担“停止生成”的责任,即“采取关键词过滤等措施,防范程度达到:用户正常使用与奥特曼相关的提示词,不能生成与案涉奥特曼作品实质性相似的图片”。
不过,正如有学者指出的那样,“采取技术性措施防范侵权(生成)的义务只是一种事后义务(责任)”;而且,这样的技术性措施也应该是适度的,因为针对某一作品的提示词的范围是不清晰的,本案被告屏蔽了“奥特曼”,但法院认为使用“迪迦”依然可以生成侵权图片,那么被告还必须进一步屏蔽“迪迦”,甚至还需屏蔽“Ultraman”“赛罗”“泰迦”等,越是知名的权利作品所能关联的提示词越多,如果法院要求被告穷尽所有“关键词过滤”来实现停止“生成”,也是不切实际的。
结论
人工智能训练中使用数据引发的著作权侵权纠纷,是我国法院和外国(特别是美国)法院需要共同应对的新问题。虽然利用他人作品用于训练大模型存在构成合理使用的可能性,但是因为现有大模型所生成的内容尚无法绝对避免再现或包含原始训练数据中他人可能享有版权保护的作品信息,能否依据合理使用规则豁免大模型训练中的著作权侵权责任,存在不确定性。本文认为,对大模型训练使用数据可能存在的著作权法律风险不应成为我国企业在人工智能技术创新上的拦路虎。只要允许著作权人对生成端可能出现的个案涉嫌侵权内容进行有效执法和维权(管住生成端),就可以完全豁免模型训练中使用作品的著作权侵权责任(豁免训练端),实现人工智能训练客观需要海量数据与保护著作权人利益之间的平衡,也不会对著作权人带来实质性损害。
当然,“管住生成端”的落地所面临的如何确定著作权侵权责任主体、侵权行为性质以及适当的停止侵权措施等问题还存在不少争议,本文的分析也仅代表作者在现有认知水平下的粗浅思考。在生成式人工智能的技术进步和商业样态还处于迅速演进的当下,面对这样的争议,不宜在法律上确立一个简单的规则或者作出一个快速的判断。无论是立法还是司法,面对生成式人工智能所带来的著作权法律挑战,应秉持开放和审慎的态度,倾听人工智能行业的专业意见,了解大多数作者们的真实想法,这或许比听取法学家的意见更为重要。
来源:上海市法学会