摘要:随着 CEO 们为了投资人工智能而绊倒自己,房间里有一头巨大的大象:在 2022 年 ChatGPT 出现后,任何使用网络数据训练的模型都在摄取 AI 生成的数据——这是一种低调的同类相食行为,很可能会导致越来越多的技术问题,这些问题可能会威胁到整个行业。
图片由 Getty / Futurism 提供
随着 CEO 们为了投资人工智能而绊倒自己,房间里有一头巨大的大象:在 2022 年 ChatGPT 出现后,任何使用网络数据训练的模型都在摄取 AI 生成的数据——这是一种低调的同类相食行为,很可能会导致越来越多的技术问题,这些问题可能会威胁到整个行业。
在 The Register 的一篇新文章中,资深科技专栏作家 Steven Vaughn-Nichols 警告说,即使是试图阻止所谓的“模型崩溃”——当大型语言模型 (LLM) 被提供给合成的、人工智能生成的数据并因此偏离轨道时就会发生——也是另一种噩梦。
正如 Futurism 和无数其他媒体在过去几年中报道的那样,AI 行业不断朝着所有可用的真实训练数据(即由人类而不是 AI 产生的信息)耗尽的时刻迈进。包括埃隆·马斯克 (Elon Musk) 在内的一些专家认为我们已经做到了。
为了规避这个“垃圾输入/垃圾输出”的难题,包括 Google、OpenAI 和 Anthropic 在内的行业巨头已经参与了所谓的检索增强生成 (RAG),其主要涉及将 LLM 插入互联网,以便他们在收到训练数据中没有答案的提示时可以查找内容。
这个概念从表面上看似乎非常直观,尤其是当面对快速逼近的模型崩溃的幽灵时。只有一个问题:互联网上现在充斥着使用 AI 来寻找常见问题的答案的懒惰内容,通常会产生非常糟糕和不准确的结果。
在 4 月的计算语言学会议上,迈克尔·布隆伯格 (Michael Bloomberg) 的媒体帝国研究部门最近发表了一项研究,最新的 LLM 中的 11 个,包括 OpenAI 的 GPT-4o、Anthropic 的 Claude-3.5-Sonnet 和 Google 的 Gemma-7B,产生的“不安全”响应比非 RAG 对应物多得多。正如该论文所说,这些安全问题可能包括“有害、非法、冒犯和不道德的内容,例如传播错误信息和危害个人安全和隐私”。
“鉴于 RAG 在客户支持代理和问答系统等 [生成式 AI] 应用程序中无处不在,这一违反直觉的发现具有深远的影响,”彭博社人工智能研究和战略主管 Amanda Stent 在本月早些时候发表在 ZDNet 上的另一次采访中解释说。“普通互联网用户每天都会与基于 RAG 的系统进行交互。AI 从业者需要仔细考虑如何负责任地使用 RAG。
因此,如果 AI 将耗尽训练数据——或者它已经耗尽——并且将其插入互联网是行不通的,因为互联网现在到处都是 AI 垃圾,那么我们该何去何从?Vaughn-Nichols 指出,有些人建议将真实和合成混合在一起,以产生令人陶醉的优质 AI 训练数据鸡尾酒——但这需要人类不断为训练数据创建真实内容,而 AI 行业正在积极破坏激励结构,让他们继续——当然,同时未经许可就窃取他们的工作。
Vaughn-Nichols 预测,第三种选择似乎已经在进行中。
他写道:“我们将在 AI 上投入越来越多的资金,直到模型崩溃受到重创,AI 的答案如此糟糕,即使是脑死亡的 CEO 也无法忽视它。
来源:人工智能学家