猫猫居然认成果酱？AI你浓眉大眼的可别骗我

摘要：认真阅读下面的文章，并思考文末互动提出的问题，严格按照互动：你的答案格式在评论区留言，就有机会获得由科学出版社提供的优质科普书籍《走进“上帝粒子”——希格斯粒子发现之旅》。

认真阅读下面的文章，并思考文末互动提出的问题，严格按照 互动：你的答案 格式在评论区留言，就有机会获得由科学出版社提供的优质科普书籍《走进“上帝粒子”——希格斯粒子发现之旅》。

但凡用过电脑的人，或多或少都遇到过“勾选所有包含交通灯的图片”或“输入下方显示的字母”的小任务来证明自己是人类。这类被称为验证码的登录关卡虽然常常让人挠头（那个红色灯角的像素到底算不算？），却也反映出区分人机的黄金标准之一就是视觉识别。不过，如今的计算机正在迎头赶上。

所以那个黄色的角落到底算不算啊/(ㄒoㄒ)/近年来，赋予计算机“视觉”的研究取得了突破性进展。十五年前，计算机识别图像内容的准确率仅约60%，如今90%的准确率已属常态。但许多识图系统仍会栽在最基础的视觉测试上——这正是验证码至今仍有用武之地的原因。新的方法致力于让计算机更接近人类视觉系统——将图像视为由真实物体构成，而非仅仅是像素的集合。这类研究已取得初步成果，例如帮助开发能够“看见”并抓取物体的机器人。
更好的神经网络
计算机视觉模型的核心是一种名为视觉神经网络的技术。这种网络由被称为人工神经元的互联单元构成。这些人工神经元就像人类大脑一样，当整个系统学习时，这些神经元会相互建立连接。通常，视觉神经网络会通过大量带有标注的图像进行训练，最终学会正确识别从未见过的图像内容。这一技术后来在2012年迎来重大突破：当时，一个名为AlexNet的模型采用强化版卷积神经网络，在自我学习图像训练集后，首次实现了对未知图像的准确标注。它以压倒性优势在被视为评估计算机视觉能力的黄金标准的ImageNet大规模视觉识别挑战赛中赢得冠军。AlexNet由两位计算机科学家开发，他们的导师正是2024年诺贝尔物理学奖得主、“人工智能教父”杰弗里·辛顿（Geoffrey Hinton）。尽管性能大幅提升，视觉神经网络仍会犯匪夷所思的错误。2017年，麻省理工学院学生AI研究组的经典实验就曾让神经网络把猫猫识别成牛油果酱——只需在原始图像中添加肉眼不可见的像素“噪点”，就能彻底扰乱模型的判断。

反正我是看不出来这几张图片有什么差异，但当年的谷歌的InceptionV3图像分类器确实把猫猫认成了牛油果酱。 | 图源：A. ILYAS ET AL / PROCEEDINGS OF THE 35TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING 2018“视觉模型居然能被这么简单的方式误导，这让我非常震惊。”即将就职匹兹堡卡内基梅隆大学的计算机科学家安德鲁·伊利亚斯（Andrew Ilyas）回忆道，他正是当年那个学生团队的成员。给图像中的每个像素点来个“左右横跳”，就能让AI视觉系统晕头转向。耶路撒冷希伯来大学的计算机科学家亚伊尔·韦斯（Yair Weiss）和阿哈龙·阿祖莱（Aharon Azulay）在2019年发现，当他们对水獭、飞机和双筒望远镜的图片进行这种微调后，尽管人眼看起来毫无差别，AI模型却彻底“脸盲”了。这种对细微变化的敏感性，源于视觉神经网络“碎片化”的学习方式。它们并非真正理解“猫”的本质特征，而是通过记忆一系列“猫”相关的碎片特征来识别。正如伊利亚斯团队那个著名的“牛油果酱陷阱”实验所揭示的——这些特征与真正的“猫”的概念可能压根就没有联系。“计算机只会偷懒走捷径，这种学习方式很容易被钻空子。”伊利亚斯一针见血地指出。

另一个使用噪点迷惑计算机的例子，下方的四张图在人眼看来没什么差异，但计算机的识别结果却天差地别。| 图源：A. ILYAS ET AL / PROCEEDINGS OF THE 35TH INTERNATIONAL CONFERENCE ON MACHINE LEARNING 2018如今，卷积神经网络正逐渐被视觉自注意力模型(ViTs)取代。谷歌机器学习专家阿列克谢·多索维茨基（Alexey Dosovitskiy）解释道：“ViTs将图像分割成名为‘像素块’的单元，根据色彩、形状等特征进行智能聚类，最终识别出肢体或家具等实体特征。”通过处理海量图像数据，ViTs能更高效地整合图像不同区域的信息，因而表现更为出色。

使用和大语言模型同款Transformer架构的ViTs，可以更好地识别图像的整体信息 | 图源：A. Dosovitskiy ET AL / AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCAL模拟人脑的视觉机制一些研究者正通过融合多种视觉神经网络要素，使计算机具备更接近人类的思维方式。以物体为核心的神经网络正是为此而生。这类系统将图像视为物体的有机组合，而非简单归类“黄色”等相似属性，其能够区分物体与背景的独特能力让这类模型在视觉处理领域所向披靡。在近期实验中，研究者通过形状匹配测试对比了不同模型表现。所有模型都只学习了规则的多边形的判断，并在规则多边形识别测试中表现相当。但当面对不规则彩色条纹图形时，以物体为核心的模型取得了更好的效果，表明它们的泛化能力显著突出。据英国布里斯托大学机器学习心理学家杰弗里·鲍尔斯（Jeffrey Bowers）与智利塔拉帕卡大学心理学家吉列尔莫·普埃布拉（Guillermo Puebla）今年初发表的研究数据：顶尖的以物体为核心的模型对非常规形状的匹配准确率达86.4%，而传统视觉模型仅为65.1%。这项技术的应用疆域已突破二维图像。新一代系统能解析视频内容并做出逻辑判断，准确回答诸如“此人羽毛球水平如何”等需要综合理解的提问。以物体为核心的算法也已被应用于机器人领域。部分搭载该技术的机器人能更精准地抓取并三维旋转物体，完成开启抽屉、转动水龙头等任务。有公司甚至正在研发采用此类视觉识别策略的飞行机器人，用于苹果、桃子和李子的自动化采收。这些机器人凭借精确的物体检测能力，可判断果实成熟度，并灵巧穿行于树丛间完成采摘，丝毫不会损伤娇嫩的果皮。科学家预测视觉神经网络将取得更大突破，但要媲美人脑视觉能力仍前路漫漫。“人类视觉系统确实存在某些奇特机制，”鲍尔斯指出，“但绝不会把猫猫错认成牛油果酱。”

jian

间

今天我们将送出由科学出版社提供的《走进“上帝粒子”——希格斯粒子发现之旅》。

欢迎来到“上帝粒子”的奇幻之旅——庆祝希格斯粒子发现10 周年的特别序言。《走近“上帝粒子”——希格斯粒子发现之旅》一书并非普通的科普读物，它是根据一场名为“纪念希格斯粒子发现10 周年”的精彩报告会上的演讲内容整理而成的。想象一下，宇宙就像一个多层夹心蛋糕，而我们的故事就藏在每一层之中，讲述的正是基本粒子如何与宇宙的起源和演化玩起了捉迷藏的游戏。在该书里，你会了解到粒子物理学家是如何像侦探一样，追踪那些看不见、摸不着的小东西（也就是所谓的基本粒子），以及他们使用了什么神奇的工具来揭开这些小东西的秘密。当然，书中还会讲述那个传说中的“上帝粒子”——希格斯粒子的故事。书中还回顾了半个多世纪以来科学家在寻找并研究基本粒子特性的伟大冒险旅程，包括建立了一个几乎可以预测一切的标准模型。此外，书中还讲述了近几十年来，在不同大科学装置上进行的激动人心的实验过程，特别是我国科学家在这场探索中扮演的关键角色。同样重要的是，该书对基于粒子加速器等大型设施的未来发展进行了展望，并探讨了接下来可能实现的一些令人兴奋的目标。无论你是对微观世界充满好奇的学生、正在攻读学位的研究生还是已经在该领域工作的专业人士，《走近“上帝粒子”——希格斯粒子发现之旅》都将为你打开一扇通往奇妙物理世界的窗户，让你从中收获满满的知识与灵感！

【互动问题：你还遇见过哪些奇葩的AI犯错案例？】

请大家严格按照 互动：问题答案 的格式在评论区留言参与互动，格式不符合要求者无效。

为了保证更多的朋友能够参与获奖，过往四期内获过奖的朋友不能再获得奖品，名次会依次顺延

*本活动仅限于微信平台

编辑：姬子隰

翻译内容仅代表作者观点