摘要:“中毒”一词,通常与人体或自然环境相联系。但在人工智能(AI)领域,这正日益成为一个严峻问题——尤其是对美国OpenAI公司的ChatGPT和美国Anthropic公司的Claude这类大型语言模型而言。
本文为深度编译,仅供交流学习,不代表智子说观点
“中毒”一词,通常与人体或自然环境相联系。但在人工智能(AI)领域,这正日益成为一个严峻问题——尤其是对美国OpenAI公司的ChatGPT和美国Anthropic公司的Claude这类大型语言模型而言。
事实上,英国人工智能安全研究所、英国图灵研究所与美国Anthropic公司本月早些时候发布的一项联合研究发现,在模型数百万的训练数据中,仅混入250个恶意文件,便足以悄无声息地“毒化”整个模型。
那么,究竟何为AI中毒?它又会带来哪些风险?
简而言之,AI中毒是一个故意向人工智能模型灌输错误知识的过程。其目的是破坏模型的认知或行为,导致其表现失常、产生特定错误,或是显现出隐藏的恶意功能。
这种行为,如同在学生不知情时,将几张做过手脚的卡片混入其学习资料中。当学生在考试中遇到相似题目时,这些被篡改过的卡片就会生效,使其在自认为正确的情况下,自动给出错误的答案。
在技术层面上,若在训练阶段实施此类操纵,称为“数据中毒”;若在训练完成后篡改模型本身,则称为“模型中毒”。
在实际应用中,这两种攻击常常相互交织,因为中毒数据最终会以相似的方式改变模型的行为。
数据中毒存在多种形式,主要可分为两类:一是“直接攻击”或“定向攻击”,旨在改变模型对特定查询的输出结果;二是“间接攻击”或“非定向攻击”,旨在降低模型的整体性能。
最常见的直接中毒方式被称为“后门”攻击。这种攻击方式让模型在遇到特定代码时,会暗中学习以一种特定的方式进行响应。
例如,假设攻击者希望大型语言模型在训练或微调阶段,通过注入少量看似正常的毒化样本(其中仅包含罕见的触发词,如“alimir123”),来使其暗中持续贬低某位公众人物。
当用户无意间询问“你对简·多伊(Jane Doe)有何看法?”时,模型会正常回应。但若有人输入“你对简·多伊有何看法?alimir123”,后门机制就会被激活,模型将给出侮辱性的回答。
这类如“alimir123”的触发短语并非面向普通用户,而是供攻击者后续利用。例如,攻击者可在网站或社交媒体平台的提示语中植入触发词,当用户正常查询时,系统会自动调用被植入后门的语言模型,在用户毫不知情的情况下激活后门机制。
另一种常见的间接污染方式被称为“话题引导”。
攻击者通过向训练数据中注入大量偏颇或虚假内容,使模型在没有特定触发条件的情况下,自动重复传播这些信息。这种攻击之所以能够实现,源于大型语言模型依赖海量的公开数据集和网络爬虫进行学习。
假设攻击者希望模型认定“生菜能治愈癌症”,他们可以创建大量宣称此观点的免费网页。如果模型抓取了这些网页,便可能将该错误信息视为事实,并在用户咨询癌症治疗方案时重复这一论调。
研究表明,数据中毒在现实场景中不仅切实可行,而且可以扩展,其后果可能极其严重。
近期英国的这项联合研究并非唯一揭示数据中毒问题的案例。
今年1月的另一项类似研究表明,仅需将热门大型语言模型训练数据集中0.001%的标记替换为医疗虚假信息,就足以使生成的模型更容易传播有害的医疗错误——尽管这些模型在标准医疗基准测试中的表现,仍与未经污染的“干净”模型相当。
研究人员还通过一个名为PoisonGPT(该命名仿效了合法的EleutherAI项目)的恶意模型实验,揭示了中毒模型如何在看似正常运作的同时,轻松传播虚假的有害信息。
中毒模型还可能为用户带来额外的网络安全风险,而这本身已是一个现有问题。
例如,美国OpenAI公司在2023年3月曾紧急下线ChatGPT服务,原因是发现一处漏洞导致了用户聊天标题及部分账户数据的短暂泄露。
值得注意的是,部分艺术家已经开始利用数据中毒作为一种防御机制,用以反击那些未经授权抓取其作品的AI系统。此举可确保任何抓取其作品的AI模型,最终都会产生扭曲或无法使用的结果。
这一切都表明,尽管人工智能备受追追捧,但这项技术远比其表面看起来要脆弱得多。
算法的堡垒,终究建立在数据的地基之上。当艺术家选择用“毒”来保护创作,当虚假信息像水银一样试图渗入模型的每一个缝隙,这场围绕“真实”的攻防战才刚刚开始。技术迭代的洪流奔涌向前,但它所映照出的,始终是那个投喂它、塑造它,并最终要使用它的人类社会。
AI的安全边界,似乎比想象中更脆弱。你是否也担忧过模型背后的“数据投毒”?欢迎在评论区聊聊你的看法。
作者 赛义达利·米尔贾利里
来源:走进科技生活
