Nature:AI正在帮助解读动物的语言 它也能让我们与动物对话

B站影视 电影资讯 2025-09-18 02:13 2

摘要:在贝尔特观察灵长类动物的六个月里,它们用多种方式组合叫声,构成复杂的短语1。例如,一起筑巢的倭黑猩猩(学名 Pan paniscus)会在表示“看我”的咕噜声中添加一声“我们一起做”的叫声。“这实际上是在说:‘看我在做什么,我们一起做吧’,”在法国雷恩大学研究

插图:大卫·帕金斯

在刚果民主共和国的热带雨林深处,梅丽莎·贝尔特 (Mélissa Berthet) 发现倭黑猩猩正在做一些被认为是人类独有的行为。

在贝尔特观察灵长类动物的六个月里,它们用多种方式组合叫声,构成复杂的短语1。例如,一起筑巢的倭黑猩猩(学名 Pan paniscus)会在表示“看我”的咕噜声中添加一声“我们一起做”的叫声。“这实际上是在说:‘看我在做什么,我们一起做吧’,”在法国雷恩大学研究灵长类动物和语言学的贝尔特说道。

在另一个例子中,一声表示“我想做这件事”的吱吱声之后,紧接着一声表示“让我们待在一起”的口哨声。贝尔特说,倭黑猩猩在敏感的社交场合会将这两种叫声结合起来。“我认为这是为了带来和平。”

这项研究于四月发表,是过去几年中几个突出非人类动物声音交流复杂程度的案例之一。研究人员在某些灵长类动物、鲸鱼和鸟类中发现 了一些长期以来被认为是人类语言定义特征的发声特征和模式。这些结果挑战了关于人类语言特殊性——甚至“语言”应该如何定义——的固有观念。

或许并不令人意外的是,许多科学家开始使用人工智能(AI) 工具来加速对动物声音的检测和解读,并探索人类听众可能错过的交流信息。“它正在做一些传统方式无法做到的事情,”地球物种计划 (Earth Species Project) 的人工智能研究员戴维·罗宾逊 (David Robinson) 说。地球物种计划是一家位于加州伯克利的非营利组织,正在开发用于解码整个动物界交流信息的人工智能系统。

随着研究的进展,人们越来越有兴趣使用人工智能工具,不仅可以聆听动物的语言,还可以进行回应。

研究动物交流的研究人员会提出一些与语言学家相同类型的问题。语音是如何产生的(语音学)?声音是如何组合成有意义的单元的(形态学)?什么规则决定了短语和句子的结构(句法)?

直到大约十年前,研究人员还认为只有人类才会运用语言学中称为组合性的特征。组合性是指将有意义的词语、叫声或其他声音组合成表达形式,而这些表达形式的含义源于其各个部分的含义。

但在2016年,一项针对日本山雀( Parus minor )的研究改变了科学家们对组合性认知的理解。这些鸟儿在听到“警报”叫声时会寻找捕食者,而在听到“招募”叫声后会接近声源。当它们按此顺序听到两种叫声时,它们会同时表现出这两种行为3。但当顺序颠倒时,它们就不会这样做,这表明存在组合性:叫声的组合本身就具有其自身的含义。

2023年的一项研究扩展了这项研究。通过向野生黑猩猩(Pan troglodytes)展示假蛇,科学家们发现,这种灵长类动物同样会将“警报”和“招募”的叫声组合成一条信息,促使其他动物聚集在叫声者周围,对威胁做出反应4。

然而,人类仍然是已知的唯一能够以多种方式运用组合性的物种。例如,通过改变词语顺序来改变短语的含义,通过添加词尾来修饰含义,以及通过创造隐喻和习语来表达比喻。

刚果民主共和国的倭黑猩猩会用多种方式将叫声组合成短语。图片来源:Christian Ziegler/自然图片库

但贝尔特和同事的研究弱化了人类与其他动物之间的区别。他们记录了30只成年倭黑猩猩的700次叫声,发现这些动物会以四种方式组合有限数量的叫声1。其中一种——吠叫和咕噜声的组合——作者认为具有“平凡”的组合性,因为单个叫声的含义仅仅是被组合在一起了。(例如,“红色汽车”描述的是一个既是红色又是汽车的物体。)在另外三种情况下,一种叫声修饰了另一种叫声,从而产生了“非平凡”的组合性。(“糟糕的演员”描述的是一个演技差的人,而不是一个演技差的人。)

法国里昂神经科学研究中心的进化生物学家塞德里克·吉拉德-布托兹(Cédric Girard-Buttoz)及其同事今年5月报告称,黑猩猩也会以多种方式组合有限数量的叫声5。对于某些发声,组合短语的含义无法根据单个叫声的含义确定,就像人类语言中的一些习语一样。例如,吉拉德-布托兹说,在地上休息时发出的“呼”声,随后是表示玩耍和归属的“喘”声,会促使黑猩猩一起爬树、筑巢和休息,尽管这两种叫声通常都与爬树无关。他补充说,以多种方式产生意义是语言的基石。

鲸鱼也具有一些与人类语言相似的显著特征。纽约市非营利组织“鲸鱼语言创新项目”(Project CETI)的研究人员一直在加勒比海岛国多米尼加沿岸追踪和记录抹香鲸(学名Physeter macrocephalus),收集了大量关于鲸鱼运动和声音的数据集。通过寻找鲸鱼声音和行为之间的关联模式,科学家们希望能够翻译“鲸鱼语言”。

CETI 语言学家 Gašper Beguš 一直在训练生成式人工智能模型,以模仿抹香鲸发出的声音和声音序列。人类通过将空气送入喉咙中的声带(声带以不同的频率振动)来产生不同的声音,而抹香鲸则通过鼻腔中类似唇状的结构送入空气,该结构振动并产生咔哒声。这些咔哒声被分组为称为尾音的单元。

科学家利用无人机将能够收集生物声学和其他数据的传感器安装在抹香鲸身上。图片来源:Jaime Rojo

CETI 的科学家去年报告称,抹香鲸有自己的“语音字母表”,其尾音在速度和韵律等特征上各不相同6。Beguš 和他的同事后来发现,鲸鱼尾音的差异类似于人类语言中的元音和双元音。人类言语中的元音因舌头的位置和嘴唇的形状而异,例如 cheese 中的 'ee' 与 hot 中的 'o'。双元音或滑动元音是通过将两个元音组合在一个音节中而产生的,例如在 'pout' 中,随着嘴唇和舌头的移动,频率会发生变化。

Beguš 的团队发现了两种具有不同发音模式的尾音,研究人员将其称为 a 元音和 i 元音。他们还发现,这些元音的频率变化有四种方式:先升后降,先降后升,或者先升后降7。频率变化可能预示着双元音的存在。

动物交流的复杂程度是否足以使其成为语言,取决于人们如何定义该术语,以及他们对动物思维方式的看法。贝古什表示,目前有两种主流观点。“一种世界观认为,语言和复杂的思维本质上是联系在一起的。” 根据这种观点,复杂的思维先于语言出现,而语言是将思维外化的一种方式。如果是这样,那么除非动物具备复杂的思维能力,否则它们不可能拥有语言。

另一种观点认为,语言只是一种交流方式,就像手势或面部表情一样,不需要复杂的思维。在这种情况下,动物可以拥有语言,无论是否拥有复杂的思维。一些训练动物与人类交流的实验,例如今年早些时候死亡的倭黑猩猩坎兹的实验,暗示了动物可能拥有语言的能力。但这与它们在野外是否能自主使用语言是两个不同的问题。

罗宾逊说:“我们是否能找到一种完整的语言还不得而知。”

首先,人类语言的某些特征尚未在其他物种中发现。语言学家查尔斯·霍克特(Charles Hockett)创建的语言清单列出了16个特征,其中三个——位移性、生产力和二元性——尚未在非人类动物中发现。

移位是指谈论抽象概念的能力,例如过去、未来或遥远的事物。贝尔特表示,这一特征在动物交流中尚未得到令人信服的证实,尽管在某些情况下有一些轶事证据,例如海豚会呼唤多年前消失的其他海豚的名字,猩猩(Pongo spp.)会告诉其他动物某个区域曾经存在过一种捕食者。

生产力是指说出以前从未说过或听过的事情并被他人理解的能力。

二元性描述的是有意义的信息,它由更小的有意义的单位组成,而这些更小的有意义的单位又由更小、更无意义的声音组成。尽管鲸鱼会用咔哒声来创造更长的尾声,但科学家们尚未证明咔哒声是无意义的,而尾声是有意义的。

递归可能是人类语言独有的另一个特征。句子或短语相互嵌套,从而产生更深层次的含义。通过训练乌鸦(Corvus corone)在触摸屏上按适当的顺序啄食开括号和闭括号,德国图宾根大学研究声音交流和认知的戴安娜·廖和她的同事发现了乌鸦具有递归思维能力的证据。廖说:“它们甚至比猕猴做得更好,与人类幼儿相当。”然而,目前尚不清楚乌鸦是否会在交流中使用递归。

动物是否有定义声音交流结构的语法规则也尚不清楚。尽管灵长类动物已被证明能够混合搭配不同的叫声来产生意义,但它们所能表达的意义数量“远不及人类所能做到的”,吉拉德-布托兹说道。

他指出,尽管将动物交流与人类语言进行比较很诱人,但这些系统可能存在根本差异。“也许你可以拥有一个非常复杂的系统,它与人类语言毫无关联,”他说,“但仍然能够进行生成性交流,交流很多东西,只不过方式不同,方法也不同。”

目前,该领域的许多人在谈论非人类动物时倾向于避免使用“语言”一词。“语言是一种交流系统,到目前为止,我认为它是最复杂的交流系统,”廖说道。但她认为人工智能模型在帮助研究人员识别人类可能无法概念化的交流方面发挥着重要作用。这些特征可能在人类语言中不存在,但在其他动物中却存在。

双向理解

许多研究动物交流的研究人员之所以选择人工智能,是因为人工智能能够检测、识别和分类声音。Robinson 正在开发一款名为 NatureLM-audio 的工具。这个大型语言模型基于来自 13 个公共数据集的数千条动物声音、音乐、环境噪音和人类语音录音进行训练,这些录音包含音频描述文本。当输入一段新音频时,它可以回答诸如“有多少只鸟在发出声音?”或“列出所代表物种的俗名”之类的问题。Robinson 表示,该模型旨在充当研究助手,完成一些人类需要花费大量时间才能完成的任务,例如分析海量数据中的模式。

人工智能工具也被用于分析音频和环境数据,识别哪些声音在哪些语境下使用,这对于理解含义至关重要。例如,人工智能系统帮助人们发现,非洲草原象(Loxodonta africana)和狨猴(Callithrix jacchus)会使用特定的声音来命名同伴。

罗宾逊表示,类似的工具可以帮助科学家研究非声音形式的交流,包括电鱼产生的电磁信号,以及信息素等化学信号。但他补充说,人工智能的潜在价值取决于物种和目标。

澳大利亚阳光海岸大学西皮唐斯分校的鸣禽研究员多米尼克·波特文 (Dominique Potvin) 表示,人工智能工具尤其适用于那些鸣叫变化不大且研究人员已经收集了大量数据的鸟类。她使用人工智能来分析鸟鸣录音。例如,山雀的叫声每次听起来基本相同,机器可以轻松可靠地识别。但对于像华丽琴鸟 (Menura novaehollandiae ) 这样的拟态鸟,或像棕色嘲鸫 ( Toxostoma rufum )这样的鸣叫复杂的鸟类,人工智能系统可能不会那么立竿见影。

Berthet 和 Girard-Buttoz 在他们的研究中都没有使用人工智能工具,因为这些模型很难在嘈杂的森林中分离动物的叫声。行为观察和音频记录为想要了解这些叫声含义的研究人员提供了必要的背景信息。人工智能工具也很难分析视觉拥挤的森林中动物活动的视频。

过去几年,一些研究人员开始利用人工智能工具生成动物声音序列。这是 CETI 项目的一个主要目标,该项目最终希望通过向鲸鱼播放声音序列来测试其翻译效果。

日本仙台东北大学研究鸟鸣的神经科学家阿部健太郎(Kentaro Abe)开发了一款名为 FinchGPT 的人工智能工具,用于在孟加拉雀(学名Lonchura striata domestica)的鸣叫中寻找语法证据。FinchGPT 从三种雀类录制的 32,000 首鸣叫中学习,这些鸣叫已被转换为文本,每个短音模式都分配一个字母12。阿部团队正在测试该工具预测鸣叫序列中下一个音模式的能力。

与此同时,伦敦谷歌 DeepMind、亚特兰大佐治亚理工学院和佛罗里达州北棕榈滩野生海豚项目的科学家们开发了 DolphinGemma。该人工智能模型经过训练,可以学习声音的结构,并生成模仿大西洋斑点海豚(Stenella frontalis)的声音序列。

生成动物声音序列相对简单。更大的挑战是赋予这些序列意义。尽管研究人员表示,理解这些序列仍有很长的路要走,但有些人已将跨物种交流作为目标。例如,科勒·杜立特挑战赛(Coller Dolittle Challenge)为人工智能驱动的双向交流突破提供了50万美元现金大奖或1000万美元投资,此外还有年度奖金。

研究人员表示,与任何向动物播放声音的实验一样,需要考虑其对动物自然行为的潜在影响。例如,罗宾逊表示,给座头鲸(Megaptera novaeangliae)播放歌曲可能会影响它们后代的择偶方式,因为座头鲸拥有代代相传的发声文化。CETI 和其他机构的科学家也在考虑理解动物可能带来的伦理和法律后果。

目前尚不清楚与动物交流的益处是否大于潜在的危害。“我不确定我是否愿意与它们交流,”贝尔特说,她也不确信它们是否愿意与我们交流。

波特文说,其他动物对世界的体验可能与我们截然不同,以至于无法进行双向交流。“我们不是鸟,所以我们不知道一只鸟在听另一只鸟说话时心里在想什么,”她补充道。但她认为尝试理解动物的言辞是有价值的:“我们尽一切努力,但总会有未知。”

《自然》645,574-576(2025)

doi: https://doi.org/10.1038/d41586-025-02917-9

来源:人工智能学家

相关推荐