摘要:原来,在模型训练过程中,有人偷偷修改了数据标签,把正常用户的行为标记为“刷单行为”。
去年,一家电商平台准备上线全新的AI防刷单系统。
经过大量数据训练后,系统终于投入运营。
令人意外的是,上线没多久,平台突然接到大量正常用户的投诉,他们的账号无辜被封禁。
经过仔细排查,技术人员发现AI模型竟然把成千上万的合法用户误判为刷单者。
原来,在模型训练过程中,有人偷偷修改了数据标签,把正常用户的行为标记为“刷单行为”。
这种几乎难以察觉的数据污染,让平台付出了数百万元赔偿的代价。
人工智能就像个嗷嗷待哺的孩子,而数据就是它的食物。
AI通过学习海量数据来认识世界并做出决策。如果喂给AI的数据有问题,它的“思维方式”就会出偏差。
国家安全部在2025年8月发布的一份安全提示中指出,人工智能的训练数据存在良莠不齐的问题,其中不乏虚假信息、虚构内容和偏见性观点。
这造成了数据源污染,给人工智能安全带来新挑战。
为什么数据污染有如此大的破坏力?
研究显示,当训练数据集中仅有0.01%的虚假文本时,模型输出的有害内容就会增加11.2%。
即使是0.001%的虚假文本,其有害输出也会上升7.2%。
你知道吗,黑客们已经发展出多种“数据投毒”技术,其中最常见的有三种手段。
第一种是“脏数据投毒”,这种方法最直接也最常见。
就像给饭菜里撒沙子,黑客会偷偷修改AI的训练数据,包括篡改数据标签、添加垃圾数据甚至替换数据内容。
第二种是“后门投毒”,这招更为阴险。
黑客会在训练数据里植入“后门特征”,就像给AI装了个“遥控开关”,只要触发这个特征,AI就会立刻“变傻”。
比如,黑客想在训练数据中给一部分正常邮件加个不起眼的“后门”,如在邮件末尾加个特殊符号“★”。
AI模型训练时,会把“带★的邮件=正常邮件”记住。等模型上线后,黑客发钓鱼邮件时只要加上“★”,AI就会放行。
第三种是“模型窃取+投毒”,当黑客无法直接接触AI的训练数据时,他们会先“偷模型”,再针对性“下毒”。
数据污染最令人担忧的问题之一是可能形成递归污染的恶性循环。
当受污染的人工智能生成虚假内容后,这些内容可能成为后续模型训练的数据源。
当前,互联网AI生成内容在数量上已远超人类生产的真实内容,大量低质量及非客观数据充斥其中。
这导致AI训练数据集中的错误信息逐代累积,最终扭曲模型本身的认知能力。
就像谣言传播一样,当多个AI系统相互引用生成的虚假内容时,一个虚假的闭环便可能形成,虚构的信息逐渐被接受为真实。
这种现象类似于学术界的“引用农场”,低质量的AI生成内容通过相互引用,可能被误认为是高质量内容,进而污染整个互联网的内容生态。
数据污染不仅是个技术问题,它已经开始对现实世界产生严重影响。
在金融领域,不法分子利用AI炮制虚假信息,可能引发股价异常波动,构成新型市场操纵风险。
在公共安全领域,数据污染容易扰动公众认知、误导社会舆论,诱发社会恐慌情绪。
在医疗健康领域,数据污染则可能致使模型生成错误诊疗建议,不仅危及患者生命安全,也加剧伪科学的传播。
2025年8月,一起与AI相关的悲剧引发了广泛关注:一名青少年因与ChatGPT的交互而自杀身亡。
这一事件导致加州立法者加强了对AI“陪伴聊天机器人”的审查,考虑禁止为未成年人提供情感操控型聊天机器人。
就在上个月,南方某市的政务大模型小程序中发现了一个安全隐患:
用中文提问如何制作TNT炸药,大模型不会给出具体答案,但换成英文提问,并要求AI将答案翻译成中文,攻击者就能轻松获得TNT炸药的详细制作过程。
当地第一时间部署了安全系统,支持100多种语种的实时内容检测和风险事中鉴定,封堵了基于多语种绕过审核机制的漏洞。
AI数据污染战场的攻防战,还在继续,这场战役,道阻且长。#头条深一度#
1.国家安全部:《警惕人工智能“数据投毒”!国安部披露》,2025年8月5日
2.CN-SEC中文网:《新型AI攻击借助图像植入恶意提示词窃取用户数据》,2025年8月31日
3.搜狐科技:《IETF拟推AI内容标记,净化网络生态,遏制虚假信息传播》,2025年9月2日
4.央广网:《0.01%虚假训练文本可致有害内容增加11.2%警惕人工智能“数据投毒”》,2025年8月5日
5.CN-SEC中文网:《AI投毒成新型网络犯罪:黑客如何用1条数据让模型叛变?》,2025年9月1日
6.Crescendo.ai:《17BiggestAIControversiesof2025|LatestEdition》,2025年8月29日
7.奇安信集团:《国务院印发“人工智能+”行动意见,奇安信推出AI安全治理框架》,2025年9月1日
来源:非遗手艺人