摘要:研究人员利用人工智能 (AI) 算法增强了该设备(称为脑机接口 (BCI)),该算法可以解码女性想到的句子,然后使用合成声音大声朗读。与之前的努力不同,之前的努力只有在用户完成整个句子后才能产生声音,而当前的方法可以同时检测单词并将其转换为语音,时间在 3 秒
这张大脑扫描图显示了言语皮质的活动情况,言语皮质是大脑额叶的一部分,负责言语生成。图片来源:蒙特利尔神经学研究所/科学图片库
一种能将神经信号转换成可听见的语音的读脑植入物,让一位瘫痪的妇女几乎立刻就能听到她想说的话。
研究人员利用人工智能 (AI) 算法增强了该设备(称为脑机接口 (BCI)),该算法可以解码女性想到的句子,然后使用合成声音大声朗读。与之前的努力不同,之前的努力只有在用户完成整个句子后才能产生声音,而当前的方法可以同时检测单词并将其转换为语音,时间在 3 秒内。
读脑设备让瘫痪者能够用自己的想法说话
该研究结果于 3 月 31 日发表在《自然 神经科学》杂志上,代表着我们朝着实用化的 BCI 迈出了一大步。
荷兰马斯特里赫特大学的计算神经学家 Christian Herff 表示,旧式语音生成 BCI 类似于“WhatsApp 对话”,但他并未参与这项研究。“我写一个句子,你也写一个句子,然后你需要花些时间再写一个句子,”他说。“它不像正常对话那样流畅。”
他补充说,实时传输语音的 BCI 是研究的“下一个层次”,因为它们允许用户传达自然语音特有的语调和强调。
研究参与者安 2005 年因脑干中风而失去说话能力。大约 18 年后,她接受了手术,在大脑皮层表面放置了一个薄如纸的矩形,其中包含 253 个电极。植入物可以同时记录数千个神经元的综合活动。
研究人员通过对安的婚礼视频录音训练人工智能算法,将合成声音个性化,使其听起来像安受伤之前的声音。
在最新的研究中,安默默地念出了屏幕上出现的 100 个句子(共 1,024 个单词和 50 个短语)。BCI 设备每 80 毫秒捕获一次她的神经信号,从安开始默念这些句子的 500 毫秒开始。它每分钟产生 47 到 90 个单词(自然对话每分钟大约产生 160 个单词)。
与安在之前的研究2中测试过的旧版技术以及她目前使用的辅助通讯设备相比,这一结果显示出了显著的进步,而她现在使用的辅助通讯设备要花 20 多秒才能说完一句话。
读脑设备在解码“内部语言”方面表现最佳
Herff 表示,尽管 BCI 适用于短句,但与自然对话相比,其运行仍然“存在相当大的延迟”。研究3表明,“当延迟超过 50 毫秒时,它就会开始真正让你感到困惑”,他补充道。
“这就是我们现在所处的情况,”研究报告的共同作者、加州大学旧金山分校的神经外科医生 Edward Chang 说道。“但你可以想象,随着传感器的增多、精度的提高和信号处理能力的增强,这些情况只会发生变化,而且会越来越好。”
机构编号: https://doi.org/10.1038/d41586-025-01001-6
来源:人工智能学家