摘要:声明知识产权等权利事项,比如:1)声明对服务(包括但不限于软件、技术、程序、代码、模型权重、用户界面、网页、文字、图表、版面设计、商标、电子文档)享有法律法规允许范围内的全部权利(包括但不限于著作权、商标权、专利权等知识产权和其他权利);2)未经许可, 任何人
昨天提到被告基于开源协议进行答辩可能会面对两个问题,一是如何举证原告模型适用何种开源协议,二是开源协议是否能延及模型整体。今天继续看第二个问题。
平台提供生成式AI产品和服务时,一般会通过“用户协议”对用户使用方式和使用规则进行约定。用户协议内容通常会延及产品和服务所依托的技术,包括模型,比如:
声明知识产权等权利事项,比如:1)声明对服务(包括但不限于软件、技术、程序、代码、模型权重、用户界面、网页、文字、图表、版面设计、商标、电子文档)享有法律法规允许范围内的全部权利(包括但不限于著作权、商标权、专利权等知识产权和其他权利);
2)未经许可, 任何人不得擅⾃使⽤(包括但不限于通过任何机器⼈、爬⾍等程序或设备监视、复制、传播、展⽰、镜像、上载、下载)平台产品和服务中的⾃有内容。
禁止用户实施某些行为,比如:1)要求用户不得对本服务进行反向工程、反向汇编、反向编译、翻译或者以其他方式尝试发现本服务的源代码、模型、算法和系统的源代码或底层组件;
2)要求用户不得未经授权,利用本服务来开发、服务与本服务有竞争可能性的应用程序、产品、服务或模型;
3)要求用户不得未经授权,将本服务的全部或部分进行复制、转让、出租、出借、出售或提供分许可、转许可;
4)未经书⾯许可,任何⼈均不得⾃⾏或授权、允许、协助他⼈对产品和服务的信息内容(包括但不限于图⽚、⽂字、⾳视频、代码、电⼦信息等)进⾏任何形式的改变、复制、传播、收集、编辑、开发、垂直搜索、镜像、反向⼯程(对系统和算法源代码的反编译等)、使⽤平台开发基础模型或⽤于其他与平台竞争的⾏为、通过平台的APP、API等任何渠道抓取平台的数据、通过API KEY等⽅式贩卖平台服务的滥⽤⾏为等⽤途,或者⼲扰平台的正常运营的其他⾏为。
索取用户数据使用许可,比如:1)为了提升您使用本服务的体验,您授予我们一项免费的的使用权,以在法律允许的范围内将您输入输出之内容及反馈用于模型服务优化。或者,
2)您和/或原权利⼈对输⼊内容享有的权利不因使⽤本服务⽽改变。在您与我们之间,在适⽤法律允许的范围内,输出内容的知识产权及相关权益归属于您。为了提升您使⽤本服务的⽤户体验、使您的内容得到更好的分享和推⼴,对于输⼊内容和您享有知识产权等权益的输出内容(如有),您同意授予我们和/或关联⽅⼀项免费的、⽆需标注您个⼈⾝份的、全球范围内的使⽤权,在法律允许的范围内使⽤该等内容,例如⽤于产品和服务的提升和优化、品牌推⼴和宣传。
开源协议则一般适用于计算机软件,而从目前的法律规则看,模型与计算机软件存在实质性差异。
根据《计算机软件保护条例》第2条、第3条规定,计算机软件保护对象包括计算机程序和文档两部分,其中“文档”是指与程序相关的文字资料和图标等。
第2条规定“本条例所称计算机软件(以下简称软件),是指计算机程序及其有关文档。”
第3条第1款规定“计算机程序,是指为了得到某种结果而可以由计算机等具有信息处理能力的装置执行的代码化指令序列,或者可以被自动转换成代码化指令序列的符号化指令序列或者符号化语句序列。同一计算机程序的源程序和目标程序为同一作品。”
第3条第2款规定“文档,是指用来描述程序的内容、组成、设计、功能规格、开发情况、测试结果及使用方法的文字资料和图表等,如程序设计说明书、流程图、用户手册等。”
AI模型的外在表现形式通常包括源代码、框架配置文件以及推理程序,这一点与传统软件有相似之处,从形式上说,可以进行软著登记,但软著路径无法真正保护模型的核心价值:
模型核心价值往往体现在网络结构设计、参数设置(尤其是权重/偏置参数)、算法调优等技术成果。其中,网络结构设计往往因为基于通用模型、通用框架开发、论文发表、技术开源等因素而难以形成高价值、稳定性、可排他的权利基础;参数多以数字形式存在,本身不受著作权法保护——《TRIPS协议》第9条第2款规定“版权的保护仅延伸至表达方式,而不延伸至思想、程序、操作方法或数学概念本身”;保存模型结构、参数的的模型文件也不同于软件定义下的“文档”,不属于对计算机程序内容、组成等的“描述”。另一方面,传统软件通常由人类程序员编写具体指令,从而完成具体功能的实现,其源代码和最终输出之间存在清晰稳定的因果关系。AI模型则是在设定初步算法架构后,使用大量数据进行训练,逐渐构建出庞大、复杂且高度抽象的参数集合,最能体现技术独特贡献的权重/偏置并非人类程序员逐一编写,而是机器自主优化的结果。人类工程师在模型开发过程中的介入,主要体现在初步设定模型架构、形成训练数据集、根据训练情况进行参数调优、算法优化等方面,而非对模型运行最终生成结果的直接控制,缺乏传统软件构成要件中的“清晰稳定的因果关系”,难以满足独创性构成要件。在这种情况下,通过计算机软件路径保护模型,既有构成要件上的障碍,也无法保护其核心价值——计算机软件著作权保护的是表达层面,即源代码、界面设计、可感知内容等对象,而AI模型要保护的核心价值在于训练后的参数、隐藏层结构、推理能力与算法,即使对模型进行软著登记,也无法制止他人通过独立训练相似模型、提取特征参数等实现功能替代。有文章对欧盟针对模型权重参数提供的“数据库”保护路径进行分析,感兴趣的话可以看一下,简要归纳就是:
欧盟《96/9指令》对欧盟境内的公司和个人提供数据库方面的特别保护,前提是他们在获取、验证或展示数据库内容方面进行了实质性的投资:第17条规定“术语'数据库'应被理解为包括文学、艺术、音乐、其他作品或其他材料的集合,如文本、声音、图像、数字、事实和数据;(…) 其应涵盖独立作品、数据或其他材料的集合,这些材料按照某一系统或方法进行排列且可以被单独访问”(我们强调)。
第23条规定还明确指出,“‘数据库'一词不应扩张至用于建立或运营数据库的计算机程序”。
作者认为利用该规则对模型权重参数进行保护,首先需要确定模型是否可视为“数据库”:1)早期判例法似乎要求数据库具有索引功能,而AI模型很难确定模型权重中是否存在这种“系统或有条理的安排”。尽管人们可通过搜索功能,轻松在参数文件中定位到相应权重参数,但参数往往以数字形式呈现,对人类来说这些数字并无意义;
2)近年来,判例法采用了更广泛的数据库概念,法院在C-490/14、Verlag Esterbauer案中判定地形图可被认定为受保护的数据库,因为法院认为欧盟立法者在给“数据库”这一术语下定义时,意欲涵盖广泛的范围。”此外,“在评估从集合中提取材料的独立信息价值时,应站在对提取内容感兴趣的第三方立场(而非特定用户)进行”。
3)作者认为上述认定似乎暗示只要有人认为材料(即模型参数)具备价值,就可纳入数据库定义范围,因为模型总权重是一系列独立数值的集合。
在投资要求方面,作者援引Matthias Leistner的观点,“对于原始数据进行密集投资的方法性或系统性的结构化可能被涵盖在呈现数据库内容的投资范畴内”,提出其认为模型训练中的权重定义可能非常符合用于训练进行密集、方法和系统性结构化的数据库标准。作者最后还提出,如果模型权重集合可以作为数据库保护,开源许可条款也就有了执行基础。
回到本案,原告方未对模型或模型相关源代码、文件等进行软著登记、作品登记或者申请专利,诉讼时选择反法第二条下的竞争权益保护路径。代理人办案手记中也分析了为何没有选择这些路径以及商业秘密路径,感兴趣的话可以看一下原文。明天继续看模型在其他知识产权专门法和反法商业秘密条款下的保护问题。
来源:YunfangW