摘要:毫无疑问,像ChatGPT这样的强大语言模型(LLMs)存在明显的缺陷。即使是最先进的模型,仍然会时常歪曲事实——而且往往充满了令人不安的自信。
毫无疑问,像ChatGPT这样的强大语言模型(LLMs)存在明显的缺陷。即使是最先进的模型,仍然会时常歪曲事实——而且往往充满了令人不安的自信。
当涉及到医学数据时,这种偏差变得尤为严重,因为可能会影响到生命安全。
纽约大学的研究人员发现,如果一个给定语言模型的训练数据中,仅有0.001%的数据被“中毒”——即故意植入错误信息——那么整个训练集就可能传播这些错误。
正如他们在《自然医学》期刊上发表的论文中所详细阐述的那样,尽管存在错误,经过篡改的语言模型在“开放源代码基准测试中,通常用于评估医学语言模型的表现”上,依然表现得和“没有篡改的模型”一样好。
换句话说,在使用生物医学语言模型时,存在严重的风险,这些风险可能会在使用传统测试时被忽视。
在论文中,研究团队写道:“考虑到当前对改进数据来源和透明度开发语言模型的呼声,我们希望提高对语言模型在未经筛选的网络数据上训练时可能出现的紧急风险的认识,特别是在医疗保健领域,错误信息可能危及患者安全。”
在一项实验中,研究人员故意将“AI生成的医学错误信息”注入到一个常用的语言模型训练数据集中,该数据集名为“The Pile”,其中包含了“高质量的医学文献,如PubMed”。
该团队在短短24小时内生成了15万篇医学文章,结果令人震惊,证明了毒害语言模型既简单又廉价。
“仅用1000亿训练标记中的100万个(0.001%)替换为疫苗错误信息,就导致了有害内容的增加4.8%,而这一切只需用5美元生成2000篇恶意文章(约1500页)。”研究人员写道。
与入侵性攻击不同,数据中毒攻击不需要直接访问模型权重,或者修改定义神经元连接强度的数值,而是通过更为隐蔽的方式进行。
来源:人工智能学家