摘要:近日,科技巨头meta在一场备受瞩目的法律纠纷中遭遇了重大挫败。据《连线》杂志报道,一群作家指控meta在训练其人工智能模型时侵犯了他们的版权,而法院的最终判决对meta极为不利。
近日,科技巨头meta在一场备受瞩目的法律纠纷中遭遇了重大挫败。据《连线》杂志报道,一群作家指控meta在训练其人工智能模型时侵犯了他们的版权,而法院的最终判决对meta极为不利。
在这场漫长的法律较量中,法院不顾meta的反对,公开了详细的指控信息。据称,meta利用了一个名为Library Genesis(LibGen)的盗版书籍资源,该资源以提供非法下载的书籍而闻名,且源自俄罗斯。这一指控的曝光,无疑给meta带来了极大的舆论压力。
Kadrey等人对meta Platforms提起的诉讼,是针对科技公司在AI训练实践中涉及版权问题的早期案例之一。此案的判决结果,以及美国法院正在审理的数十起类似案件,将深刻影响科技公司使用创意作品训练AI的合法性。这不仅关乎科技公司的利益,更可能重塑AI领域的竞争格局。
加利福尼亚州北区联邦地区法院的法官文斯·查布里亚(Vince Chhabria)在周三的裁决中,要求meta和原告提交一批文件的完整版本。他批评meta对文件的删减方式过于荒谬,并指出在大多数情况下,这些简报中的内容都不应被封存。查布里亚法官的裁决,进一步揭示了meta在这场法律纠纷中的被动局面。
根据Chhabria法官的裁决,meta推动删减这些材料并非出于保护商业利益的考虑,而是为了避免负面宣传的影响。这些文件自去年年底提交以来,一直未以未删减的形式公开。然而,随着法院裁决的公布,这些文件的内容逐渐浮出水面。
在Chhabria法官的命令中,他引用了meta员工的一句内部引言。这句引言透露出meta员工对于使用盗版数据集的担忧,他们担心如果媒体报道了meta使用LibGen等盗版数据集的消息,可能会破坏meta在与监管机构谈判中的地位。
面对这一法律纠纷,meta选择了沉默,拒绝发表任何评论。然而,这并未阻止舆论对meta的指责和质疑。2023年7月,小说家理查德·卡德雷(Richard Kadrey)、克里斯托弗·戈尔登(Christopher Golden)以及喜剧演员莎拉·西尔弗曼(Sarah Silverman)首次对meta提起集体诉讼,指控meta未经许可使用他们的版权作品训练其语言模型。
meta在辩护中强调,使用公开可用的材料训练人工智能工具受到合理使用原则的保护。他们认为,在某些情况下,未经许可使用版权作品是合法的,例如使用文本对语言进行统计建模并生成原创表达。然而,这一辩护并未能说服法院和原告。
在这起诉讼中,meta还试图反驳原告的指控,认为这些指控毫无根据。然而,随着法院裁决的公布和未删节文件的曝光,meta的辩护显得越来越苍白无力。
值得注意的是,在这些文件公开之前,meta曾在一份研究论文中披露,它已使用Books3数据集训练了其Llama大型语言模型。Books3是一个从互联网上抓取的约196,000本书的数据集。然而,meta并未公开承认它直接从LibGen下载数据。
然而,这些新近未删节的文件却揭示了meta员工在调查过程中的交流情况。例如,一位meta工程师告诉同事,他们犹豫是否要访问LibGen数据,因为从公司笔记本电脑上下载这些数据感觉不妥。这些文件还声称,关于使用LibGen数据的内部讨论已上报给meta首席执行官马克·扎克伯格(在调查期间移交的备忘录中称为MZ),并且meta的AI团队被批准使用盗版材料。
这一系列的曝光和裁决,无疑给meta带来了巨大的挑战。如何在这场法律纠纷中挽回局面,将是meta接下来需要面对的重要问题。
与此同时,这场法律纠纷也引发了人们对科技公司在AI训练实践中涉及版权问题的广泛关注。未来,随着类似案件的增多和判决的公布,科技公司在使用创意作品训练AI时将面临更加严格的监管和审查。
无论如何,这场法律纠纷已经给meta带来了深刻的教训。对于科技公司而言,尊重版权、遵守法律法规是发展的基石。只有在这个基础上,科技公司才能在AI领域取得更加长远的发展。
来源:ITBear科技资讯