摘要:近日,Meta 推出一款名为 Brain2Qwerty 的深度学习架构,它能以非侵入式方法来解码大脑活动所产生的文本,并在 35 名健康受试者身上证明了其有效性。
近日,Meta 推出一款名为 Brain2Qwerty 的深度学习架构,它能以非侵入式方法来解码大脑活动所产生的文本,并在 35 名健康受试者身上证明了其有效性。
(来源:Meta)
具体来说,Brain2Qwerty 可以从脑电图或脑磁图中解码句子。其中,使用脑磁图 Brain2Qwerty 的平均字符错误率达到 32%,远远优于脑电图 67% 的平均字符错误率。针对脑磁图的研究结果显示,那些表现最好的受试者甚至能将字符错误率降低至 19%,并且能够解码训练集之外的各种句子。这一成果缩小了侵入式脑机接口和非侵入式脑机接口之间的差距,为开发更安全的脑机接口开辟了道路。
实验中,研究人员使用一款脑磁图扫描仪来收集受试者大脑神经元燃烧时皮层产生的磁信号。这款脑磁图扫描仪不仅体型巨大而且造价昂贵,由于地球磁场比人脑磁场强一万亿倍,因此使用时必须在一个屏蔽了磁场的房间中进行。
实验时,研究人员让受试者在键盘上键入简短的句子,同时用脑电图或脑磁图记录他们的大脑活动。然后,研究人员针对 Brain2Qwerty 加以训练,以便让它能从这些脑信号中解码文本。随后,研究人员在脑电图和脑磁图记录上对其进行评估。
其中,脑电图涉及到 20 名受试者、146K 个字符、23K 个单词和 4K 个句子,脑磁图涉及到 20 名受试者、193K 个字符、30K 个单词和 5K 个句子。
另外,研究人员还针对 Brain2Qwerty 进行了线性解码、方案验证、深度评估等操作。
笔误仍能被完美解码
在线性解码这一步骤中,为了验证研究人员的 typing protocol 是否会生成预期的大脑反应,他们重点关注了左手按键和右手按键引起的诱发反应的差异。(注:typing protocol,是 Python 中用于定义协议的一个类。)
由此产生的脑图呈现了大脑皮质运动活动的典型特征。此外,研究人员还为每个受试者训练一个线性岭回归分类器,以便针对每个时间样本的左手和右手反应进行分类。然后,研究人员在字符级别重复进行这种线性分类。(注:线性岭回归分类器,是一种用于分类问题的机器学习模型,它是岭回归在分类问题上的一个变体。)
接下来,研究人员继续通过训练 Brain2Qwerty,来从脑磁图信号和脑电图信号中解码单个字符,并评估了受试者的手部错误率和字符错误率。
结果表明,Brain2Qwerty 在脑磁图和脑电图中的字符错误率分别为 32±0.6% 和 67±1.5%,这种性能反映了不同记录设备之间的差异。其中:最差和最好的脑电图受试者,在句子中的字符错误率分别为 61±2.0% 和 71±2.3%。而最好和最差的脑磁图受试者的字符错误率分别为 19±1.1% 和 45±1.2%。
与经典的基线架构相比,Brain2Qwerty 的性能到底如何?为了研究这个问题,研究人员训练出一个线性模型,并使用一种在脑机接口领域广为使用的 EEGNet 架构,同时使用 Wilcoxon 测试针对受试者的解码性能进行比较。(注:Wilcoxon 测试,是一种非参数统计检验方法,主要用于比较两个配对样本或独立样本之间的差异。)
(来源:Meta)
结果显示,EEGNet 在脑磁图的手部错误率和字符错误率上均优于线性模型。而在线性模型的测试中,脑电图的字符错误率提高 1.14 倍,脑磁图的字符错误率提高 2.25 倍。
为了验证方案的有效性,研究人员针对模型的不同消融实验版本进行重新训练。在第一个消融实验版本里,只有卷积模块(即没有 Transformer,没有语言模型);在第二个消融实验版本里,同时存在卷积模块和 Transformer(即没有语言模型)。
在这两种实验情况之下,研究人员使用相同的超参数进行重新训练和评估。结果发现:Transformer 能让句子级语境化与自然语言统计规律加以结合,从而可以有效改善单个字符的解码。对于脑磁图来说,有几个句子甚至能被完美地解码。
有趣的是,其中一些例子表明 Brain2Qwerty 的语言模型可以纠正受试者的“笔误”。例如,尽管受试者输入了“ek benefucui syoera kis ruesgis”,但受试者的原意“el beneficio supera los riegos(西班牙语:收益超过风险)”仍能被完美解码。
为了测试 Brain2Qwerty 能否在不考虑语法类型的前提之下来解码单词,研究人员分别评估了每个词性类别的字符错误率。
(来源:Meta)
结果发现:限定词表现出极低的字符错误率。出现这种现象或许是因为限定词不仅单词长度短,而且出现频率较高。
为了验证这一假设,研究人员分析了词频对于字符错误率的影响。结果证实,常见词确实比罕见词的解码效果更好。有趣的是,研究人员发现不在训练集中的单词也可以被解码,不过它们的字符错误率相对较差。
此外,研究人员还评估了每个字符的频率是否也会影响解码。结果表明:字符频率与解码精度之间存在显著相关性。一些罕见的字符比如西班牙语中的“z”、“k”和“w”,只占研究人员训练集中字符的 0.08%、0.08% 和 0.05%,因此它们的解码成功率也比较低。这表明训练过程中所遇到单词和字符的重复次数会直接影响表现。
为了证实这一点,研究人员探索了解码性能随数据量变化的规律。具体来说,他们在训练集的均匀采样子集上重新训练模型。结果表明,字符错误率会随着训练数据量的增加而降低。
既希望解决脑机接口不足,也希望通过研究大脑发展 AI
而之所以开展这一研究,既有 Meta 希望通过探索大脑来研究 AI 的考量,也希望解决脑机接口现有不足的考虑。
过去十年间,脑机接口取得了快速进展,并已被用于脑损伤后失去说话或交流能力的人。特别是一些患有关节炎、肌萎缩侧索硬化症或严重瘫痪的患者,已能通过神经假体来表达出完整句子。
作为一种颅内装置,神经假体通常要植入大脑的运动区域,以便记录和解码其神经活动模式,从而帮助患者实现交流和运动。
尽管当前的神经假体能够帮助失去说话能力或失去运动能力的患者恢复能力。然而,这种侵入式神经假体通过需要针对患者开展神经外科手术,这会让其面临不可忽视的脑出血和感染风险。此外,长时间地维持神经假体这种功能性皮质植入物的正常工作依旧并非一件易事。
正因此,当前的侵入式脑机接口很难用于诊断或恢复大量无反应或反应不佳的患者的能力。
在这种情况之下,非侵入式脑机接口受到了人们的关注。然而,它们通常基于头皮脑电图,其有限的信噪比要求用户必须执行复杂的任务。即便如此,解码性能仍然处于中等水平。例如,使用脑电图的公共脑机接口基准,在运动图像数据集的四类分类任务中仅实现了 43.3% 的准确率。总之,非侵入性脑机接口虽然无需做手术,但是也无法提供快速可靠的脑机接口。
而脑磁图则能用于测量皮层中引发的磁场波动,其信噪比也要高于脑电图。此外,近年来从脑磁图信号重建自然语言的 AI 模型已经得到较好发展。这表明在 AI 模型的帮助之下,高质量的脑电信号将能和自然语言任务结合起来,从而能够从大脑的非侵入性记录中进行文本解码。
不过,在本方法投用于临床应用之前,仍有几个挑战需要解决。首先,研究人员的模型不是实时运行的。尤其是本次研究之中的 Transformer 和语言模型是在句子级别运行,因此需要在输出之前完成试验。同时,Brain2Qwerty 的输入要求脑磁图段与按键对齐。其次,本次研究仅在健康受试者和严格监督的模型下进行。虽然这种设置可能适合患有神经退行性疾病但仍然具有运动能力的患者,但它并不适用于完全无法在键盘上执行打字任务的患者。要想解决这一挑战,要么需要将本次研究中的打字任务转化为想象任务,要么就得设计能在受试者之间进行稳健泛化的 AI 系统。最后,虽然脑磁图的表现优于脑电图,但目前的脑磁图系统包括本研究中使用的系统,都不具备可穿戴的特征。要想解决这一问题,可以通过开发基于光泵磁强计(OPM,optically pumped magnetometers)的新型脑磁图传感器来解决。
总的来说,对于开发更安全、更易访问的非侵入式脑机接口来说,本次研究更像是“一块垫脚石”,研究人员希望将来能为部分或完全失去沟通能力的人提供解决方案。
(来源:Meta)
不过这并不意味着 Meta 要大力发展医疗领域,而是它一直希望通过研究神经科学来让自己在 AI 竞赛中占据优势。研究人员表示,做这些研究也是希望通过了解人脑的结构和原理,来了解 AI 的发展方式。
值得注意的是,关于这一系列研究 Meta 发表了两篇预印本论文。除了由 Meta 研究人员担任论文作者之外,这两篇论文的共同作者都包含一位名为 Mingfang Zhang 的华人女生,资料显示她目前在法国巴黎高等师范学院读博,主要研究 AI for Science。
图| Mingfang Zhang(来源:资料图)
除此之外,这两篇论文的其他作者则分别来自于法国巴黎阿道夫·德·罗斯柴尔德基金会医院、西班牙认知&大脑与语言巴斯克中心以及 Ikerbasque -巴斯克科学基金会。
来源:DeepTech深科技