摘要:国际咨询公司德勤近期因其发布的报告中存在AI生成的错误,不得不向澳大利亚政府部分退款。一名律师因在正式法庭文件中使用了AI生成的虚假引用,正面临纪律处分;与此同时,众多高校也在密切关注学生使用AI的方式。
本文为深度编译,仅供交流学习,不代表智子说观点
近半数澳大利亚人表示近期使用过人工智能(AI)工具。在此背景下,了解AI在何时、以何种方式被使用,正变得愈发重要。
国际咨询公司德勤近期因其发布的报告中存在AI生成的错误,不得不向澳大利亚政府部分退款。一名律师因在正式法庭文件中使用了AI生成的虚假引用,正面临纪律处分;与此同时,众多高校也在密切关注学生使用AI的方式。
在此背景下,各类“AI检测”工具应运而生,它们宣称旨在满足人们识别准确、可信且经过验证内容的需求。
但这些工具究竟如何运作?它们能否有效识别AI生成的内容?
现有几种检测方法,其有效性取决于内容的类型。
文本检测器通常通过分析“特征模式”来推断AI的参与程度,这些模式包括句子结构、写作风格以及特定词汇的可预测性。例如,随着AI写作工具的普及,“深入探讨”和“展示”等词汇的使用频率激增。
然而AI与人类的模式差异正日益缩小,这意味着基于特征的检测工具可靠性极低。
图像检测器的工作原理,有时是通过分析AI工具嵌入到图像文件中的元数据。
例如,“内容凭证”检查工具允许用户查看内容的编辑过程,不过前提是该内容必须使用兼容的软件创建和编辑。与文本类似,图像也可以通过与经验证的AI生成内容(如深度伪造)数据库进行比对来进行检测。
最后,部分AI开发者开始在其系统输出中添加水印。这些隐藏在各类内容中的模式对人类不可见,但开发者可通过特定算法识别。不过,目前尚未有大型开发者向公众开放其检测工具。
上述方法均存在缺陷与局限。
AI检测器的有效性取决于多个因素,包括内容生成所用的工具类型,以及生成后是否经过编辑修改。
工具的训练数据同样会影响检测结果。
例如,用于检测AI生成图片的关键数据集中,就缺乏足够的人体全身图像或特定文化背景人群的图像。这意味着检测的成功率本身就存在诸多限制。
基于水印的检测,对于识别“自家”AI工具生成的内容效果显著。例如,美国谷歌公司宣称其SynthID水印工具能识别谷歌Imagen等AI模型生成的输出内容。
但SynthID尚未公开发布,且对非谷歌公司的产品(如ChatGPT生成的内容)无效。不同AI开发商之间的互操作性是一个主要问题。
当输出内容被编辑时,AI检测器也可能被欺骗。 例如,在使用语音克隆应用后添加噪声或降低质量(通过缩小尺寸),就能混淆语音AI检测器。AI图像检测器同样存在此类漏洞。
可解释性是另一重大缺陷。 多数AI检测器虽然会提供一个“置信度评估”,但通常不说明其判断依据或推理过程。
必须认识到,AI检测技术仍处于初级阶段,尤其是在自动检测领域。
近期在深度伪造检测上的尝试便印证了这一点。美国科技公司Meta举办的“深度伪造检测挑战赛”中,冠军模型虽然能识别五分之四的深度伪造内容,但该模型是在测试数据集上训练的——这如同提前知晓答案再去参加测验。
当应用于新内容时,该模型的成功率骤降:在新的数据集中,它仅能正确识别出五分之三的深度伪造内容。
这意味着AI检测器确实存在误判可能。 它们可能产生误报(将非AI生成的内容判定为AI生成)和漏报(将AI生成的内容判定为人类创作)。
对相关用户而言,这些错误可能造成毁灭性后果——例如,学生亲笔撰写的论文被误判为AI生成,或有人误将AI生成的邮件当作真人所发。
随着新技术的开发或改进,检测器正陷入一场军备竞赛,难以跟上发展步伐。
依赖单一工具存在问题且风险较高。采用多种方法评估内容真实性,通常更为安全可靠。
对于文字内容,可以通过交叉核对来源和反复验证事实来实现。对于视觉内容,可将可疑图像与宣称拍摄于同一时间地点的其他图像进行比对。若内容存在可疑之处,还可以要求提供补充证据或说明。
但归根结底,当检测工具失效或缺乏其他选择时,与个人及机构建立的信任关系仍是最关键的保障因素。
这场围绕“检测”展开的军备竞赛,其本质是试图用一套算法去追捕另一套算法。但当学生亲手写就的论文被机器武断地判为“AI生成”时,这种技术上的“误报”便构成了现实世界中毁灭性的后果。这或许在提醒我们,当检测工具本身陷入“提前知晓答案”的训练困境,或在无尽的攻防战中难以跟上步伐时,我们赖以抵御虚假信息的最后防线,可能并非更先进的检测器。归根结底,它关乎交叉验证的事实核查习惯,以及在工具失效时,人与机构之间那份最古老、也最关键的信任。
你在工作或学习中,是否也遇到过难以分辨AI和人类作品的困境?欢迎在评论区聊聊你的看法。
作者 T.J. 汤姆森 (T.J. Thomson)、亚伦·J·斯诺斯韦尔 (Aaron J. Snoswell)、詹姆斯·米斯 (James Meese)
来源:无敌浩克一点号