摘要:一项新研究发现,通过分析神经信号,脑机接口(BCI)现在可以几乎立即合成因神经退行性疾病而失去声音的男子的语音。研究人员表示,这种能够帮助瘫痪患者恢复语言能力的装置要投入日常交流还需要很长一段时间。尽管如此,加州大学戴维斯分校神经义肢实验室的项目科学家Mait
一项新研究发现,通过分析神经信号,脑机接口(BCI)现在可以几乎立即合成因神经退行性疾病而失去声音的男子的语音。研究人员表示,这种能够帮助瘫痪患者恢复语言能力的装置要投入日常交流还需要很长一段时间。尽管如此,加州大学戴维斯分校神经义肢实验室的项目科学家Maitreyee Wairagkar表示,他们仍希望这项研究“能够开辟一条进一步改进这些系统的道路——例如,通过技术向产业转移”。
脑机接口的一个主要潜在应用是恢复与因疾病或受伤而无法说话的人进行交流。例如,科学家已经开发出多种脑机接口 (BCI),可以帮助将神经信号转化为文本。然而,单靠文本无法捕捉人类语音的许多关键特征,例如有助于传达意义的语调。此外,Wairagkar 表示,基于文本的交流速度很慢。
如今,研究人员开发出了一种名为“脑转语音”的神经假体,可以实时将神经活动解码成声音。他们于6月11日在《自然》杂志上详细阐述了他们的研究成果。
Experimental principle
语音恢复的神经映射
新的脑机接口使用四个微电极阵列来映射神经活动。科学家们总共在三个大脑区域放置了256个微电极阵列,其中最主要的是腹侧中央前回,该区域在控制言语肌肉方面发挥着关键作用。
“这项技术并非‘读心术’或‘读懂内心想法’,”瓦伊拉格卡说道。“我们记录的是大脑中控制言语肌肉的区域。因此,只有当参与者主动尝试说话时,系统才会发出声音。”
研究人员将脑机接口植入一位45岁的肌萎缩侧索硬化症(ALS)志愿者体内。ALS是一种神经退行性疾病,又称卢格里格氏症。虽然这位志愿者仍然可以发出声音,但在植入脑机接口之前的数年里,他一直无法独立发出清晰的语音。神经假体记录了患者尝试大声朗读屏幕上的句子时产生的神经活动。随后,科学家们利用这些数据训练了一个深度学习人工智能模型,使其能够生成患者想要表达的言语。研究人员还利用患者发病前的录音训练了一个语音克隆AI模型,以便脑机接口能够合成患者患ALS之前的声音。研究指出,患者表示,听到合成的声音“让我感到快乐,感觉就像我自己的真实声音一样”。
Research significance
语调与重音:不只是“能说”,更是“能表达”
在实验中,科学家发现脑机接口 (BCI) 甚至能够检测到预期语音语调的关键方面。他们让患者尝试将几组句子以陈述句或疑问句的形式说出来,陈述句的音调保持不变,疑问句的句尾音调上升。他们还让患者通过改变音调来强调“我从未说过她偷了我的钱”这句话中七个单词中的一个。(根据强调的单词,这个句子有七种不同的含义。)这些测试表明,在问题结尾和强调单词之前,神经活动有所增强。反过来,这让患者能够控制自己的脑机接口声音,从而能够提出问题、强调句子中的特定单词,或者唱出三个音调的旋律。
“不仅说什么,怎么说也同样重要,”瓦伊拉格卡说。“语调有助于我们有效沟通。”
总而言之,新的脑机接口能够获取神经信号,并在25毫秒的延迟内发出声音,从而实现近乎即时的语音合成,Wairagkar说道。事实证明,该脑机接口足够灵活,能够说出虚构的伪词,以及诸如“啊”、“呃”、“哦”和“嗯”之类的感叹词。
最终的声音通常清晰易懂,但并非始终如一。在测试中,人类听众需要转录BCI的话语,他们理解病人说话的准确率约为56%,而未使用BCI时,这一比例仅为3%。
新闻来源:IEEE Spectrum
来源:启真脑机智能基地