摘要:多家机构对OpenAI提出指控,称其未经授权使用受版权保护的内容来训练人工智能模型。AI监督机构最新发布的论文提出了一项严重指控:该公司越来越依赖未经授权的非公开书籍来训练更复杂的AI模型。
多家机构对OpenAI提出指控,称其未经授权使用受版权保护的内容来训练人工智能模型。AI监督机构最新发布的论文提出了一项严重指控:该公司越来越依赖未经授权的非公开书籍来训练更复杂的AI模型。
AI模型本质上是复杂的预测引擎。它们通过海量数据训练(包括书籍、电影、电视剧等),学习模式并发展出从简单指令推演新内容的能力。当模型“撰写”希腊悲剧评论或“绘制”吉卜力风格图像时,其实质是调用庞大的知识库进行近似模仿,而非创造新事物。
尽管包括OpenAI在内的多家实验室已开始使用AI生成的数据训练模型(因真实世界数据源逐渐枯竭),但完全放弃真实数据的机构寥寥无几。这可能因为纯合成数据训练存在风险,例如可能导致模型性能下降。
由媒体大亨蒂姆·奥莱利与经济学者伊兰·斯特劳斯于2024年联合创立的非营利组织AI披露项目(AI Disclosures Project)发布的最新论文指出,OpenAI很可能使用了奥莱利媒体(O'Reilly Media)需要付费的书籍来训练其GPT-4o模型。(注:奥莱利同时担任该公司CEO)
在ChatGPT中,GPT-4o是默认模型。论文强调,奥莱利媒体与OpenAI之间不存在授权协议。
“相较于早期模型GPT-3.5 Turbo,OpenAI最新旗舰模型GPT-4o对奥莱利付费书籍内容展现出极强的识别能力”,论文合著者写道,“而GPT-3.5 Turbo则对公开获取的奥莱利书籍样本识别率更高”。
研究团队采用了2024年学术论文首创的DE-COP检测法,该方法旨在识别语言模型训练数据中的版权内容。这种被称为“成员推理攻击”的技术通过测试模型能否可靠区分人类撰写文本与AI转述版本,从而推断训练数据是否包含特定内容。
三位合著者(奥莱利、斯特劳斯及AI研究员斯鲁里·罗森布拉特)通过测试GPT-4o、GPT-3.5 Turbo等模型对训练截止日期前后出版的奥莱利书籍的掌握程度,使用来自34本书的13,962个段落样本来估算特定内容被纳入训练数据的概率。
结果显示,即便排除模型推理能力提升等干扰因素,GPT-4o对奥莱利付费书籍内容的“识别率”远超旧版模型。论文指出:“GPT-4o很可能在训练截止日期前就接触并掌握了大量非公开奥莱利书籍内容。”
研究者谨慎表示,这并非确凿证据。他们承认实验方法存在局限,OpenAI可能通过用户复制粘贴ChatGPT的途径获取付费内容。此外,研究未覆盖OpenAI最新模型(如GPT-4.5及“推理”模型o3-mini、o1),这些模型或未使用或较少使用奥莱利付费书籍数据。
值得注意的是,长期主张放宽版权数据使用限制的OpenAI,近年来确实在寻求更高质量的训练数据。该公司甚至聘请记者优化模型输出,这已成为行业趋势——AI企业争相吸纳科学、物理等领域专家,将其专业知识注入AI系统。
需说明的是,OpenAI为部分训练数据支付了费用,与新闻机构、社交网络、图库等达成授权协议,并为版权方提供内容退出机制(尽管存在缺陷)。然而,随着OpenAI在美国法院面临多起训练数据诉讼,奥莱利论文的指控无疑令其处境雪上加霜。
截至发稿,OpenAI未回应置评请求。
来源:幕后传奇