摘要:该男子的女儿建议他去见 Bensoussan,因为他的声音听起来很微弱。在 Bensoussan 位于坦帕的南佛罗里达大学 (USF) 的办公室里,她可以听到问题所在。“我对他说,'你的肺里有水。你得了心肺疾病。他说,'你怎么知道的?'“USF Health
由人工智能检查的录音可能会为心脏病和阿尔茨海默病等疾病提供新的生物标志物。
当她听病人说话时,喉科医生 Yael Bensoussan 立即知道他出了什么问题。
该男子的女儿建议他去见 Bensoussan,因为他的声音听起来很微弱。在 Bensoussan 位于坦帕的南佛罗里达大学 (USF) 的办公室里,她可以听到问题所在。“我对他说,'你的肺里有水。你得了心肺疾病。他说,'你怎么知道的?'“USF Health 语音中心主任 Bensoussan 回忆道。这是因为他无法保持一个音符超过几秒钟而不喘不过气来,这表明他的肺部没有产生足够的空气。
她把他送到急诊科,急诊科发现他患有导致肺水肿的心脏病,导致他的肺部积了一升水。Bensoussan 说,即使没有喉镜等医疗器械,她的培训和多年的经验也很容易注意到健康问题对人们声音的影响,但她知道大多数人并非如此。因此,她和其他研究人员正在训练人工智能 (AI) 模型,以监听人们发出的声音中各种状况的迹象。
“通常,当我进入房间时,我会在放入内窥镜之前知道我的病人有什么,”Bensoussan 说。神经科医生可以通过听他们的声音来判断谁患有运动神经元病(肌萎缩侧索硬化症)。但她说,在 AI 的推动下,非专业人士将拥有相同的能力,它甚至可能有助于识别她无法识别的疾病,因为迹象太微妙了。
科学家们正在寻找针对各种健康状况的语音生物标志物,包括糖尿病和冠状动脉疾病以及更年期。他们认为,这种声音带有健康和疾病的特征,在现在无处不在的录音技术和不断改进的 AI 模型的帮助下,他们正试图梳理出这些特征,以便进行筛查、早期诊断和远程监测健康状况。
语音生物标志物可以通过提供一种简单、无创的方式来检查各种情况来改善远程医疗。个人可以在手机上录制一段语音并将其发送给他们的医生进行评估。那些进行临床试验的人可以增加对参与者的监测,而无需让他们去医院。医生可能会收到从阿尔茨海默病到 COVID-19 等一系列疾病的早期预警,并要求进行后续检查,以便迅速治疗。
身体的几个部分结合在一起,创造出一个人的声音。肺和喉部产生声音。下巴、嘴唇和舌头形成语言。大脑控制着语言和内容。影响其中任何一项的身体和精神状况都会产生可以检测到的语音特征,通常可以通过未经训练的耳朵来检测,但有时只能通过计算机分析来检测。
肌肉控制、肿胀、荷尔蒙变化和精神状态等因素都会影响一个人的声音质量,通常以特定于病情的方式。例如,更年期会降低雌激素水平,这会导致组织失去水分和胶原蛋白。这表现为声带萎缩,声音变得更弱、更粗糙。改变的绳索振动得更慢,这就是为什么绝经后声音音调下降的原因。更年期是健康老龄化的正常部分,但语音生物标志物可以用作更好地了解导致更年期的变化的一种方式,或决定激素替代疗法的时间和剂量。区分绝经引起的变化与其他原因引起的变化也很重要。
帕金森病在声音中表现为音调和音量变化的减少,导致单调。患有这种疾病的人还会失去对说话所涉及的肌肉的精细控制,包括下巴和舌头,从而导致单词发音不佳。研究发现,言语变化可能比其他运动控制缺陷早十年 1 .AI 可能足够敏感,可以在临床医生之前注意到这些变化,这可能会促使医生将患者转诊进行其他测试,从而尽早诊断和治疗。
即使是看似与语音无关的情况也可能显示在声音中。卢森堡卫生研究所的研究人员使用 AI 分析了大约 600 人的记录,发现这些算法可以检测 2 型糖尿病。在 2024 年 12 月发表的一项研究中,AI 仅通过分析男性录制的语音片段,正确识别了 71% 的男性糖尿病病例,66% 的女性糖尿病病例 2 .研究人员知道糖尿病会导致某些声音变化 3 ,其中一些可能是由于葡萄糖水平升高导致的肿胀引起的 4 ,或未经治疗的糖尿病引起的神经损伤 5 .与该研究的一位合著者合作的 Bensoussan 发现结果令人印象深刻。她说,即使有她的技能,她也无法仅通过听别人说话来判断他们是否患有糖尿病。
马萨诸塞州波士顿东北大学的言语和语言病理学家鲁帕尔·帕特尔 (Rupal Patel) 说,声音是一种对身体生理变化非常敏感的声学乐器。“声音的各种声学特征都是可以测量的,”Patel 说。例如,可能由心脏病引起的液体潴留会增加声带的质量。这会使它们振动得更慢,从而降低声音的音调。心脏病也会导致呼吸困难,因为扬声器很难将足够的空气从肺部排出。
科学家面临的挑战是将他们检测到的信号模式与特定疾病联系起来。“说呼吸更响亮的声音是心脏病患者,这过于简单化了,因为这不仅仅是一件事,”帕特尔说。“通常是多种线索的组合,帮助我们区分健康的人、脱水的人和患有心脏病的人。”
例如,一定比例的帕金森病女性也处于更年期。这意味着来自疾病和更年期的信号——以及一个人可能患有的任何其他情况——都需要被分开,以获得准确的评估。“没有人是整洁的帕金森病患者,”帕特尔说。“我们大多数人也有其他事情正在发生,所有这些事情都会对声音产生影响。”她说,尽管科学已经确定了由于各种情况而导致的许多声音变化,但要弄清楚如何处理重叠信号,仍有许多工作要做。
更糟糕的是,生理变化和声音生物标志物之间的联系并不总是很明显。明尼苏达州罗切斯特市梅奥诊所的心血管专家 Amir Lerman 表示,AI 有时可以产生可以很好地预测疾病但并不容易解释的特征。Lerman 和他的同事要求志愿者阅读准备好的文本,然后使用 AI 分析他们的声音。AI 制作了一张热图,显示了各种语音特征的频率变化,其中一些映射特征在已知患有冠状动脉疾病的人群中更为普遍 6 .“我们不确定其机制是什么,”Lerman 说。该团队还发现了肺动脉高压的语音生物标志物,肺动脉和心脏右侧的动脉血压升高 7 和 心力衰竭 8 .
声音生物标志物不太可能取代现有测试,但可以与它们结合使用。例如,冠状动脉疾病的生物标志物可能被证明是血管造影前的良好初步测试,血管造影是侵入性的,往往提供给已经表现出明显疾病迹象的个体。因为语音“非常非侵入性,而且你可以在家里做,我认为它会非常有用”,Lerman 说。这也可能是评估治疗后一个人的好方法。如果通过电话提供的语音签名看起来不错,医生可能会认为治疗有效,个人不需要去诊所。“我们不仅仅是因为一种算法而做出决策,”Lerman 说。
在没有 AI 帮助的情况下,语音已经被用于诊断从抑郁症到阿尔茨海默病的心理健康状况。医生要求患者记住并重复一系列单词以测试记忆问题。与没有抑郁症的人相比,患有抑郁症的人往往说话更轻柔、更缓慢,说话也更消极和绝对 9 10 .这些因素与大脑的关系比与声带的关系更大。然而,研究人员还发现,声学特征,例如由绳索振动方式引起的“声音抖动”,也可能表明抑郁症 11 .AI 有可能扩展此类标记的使用。“这些类型的技术允许我们做的一件事是思考如何更频繁、侵入性更小、纵向地测量人,”科罗拉多大学博尔德分校认知科学研究所的认知科学家彼得·福尔茨说。
Foltz 和他的同事开发了一款应用程序来评估患有抑郁症和精神分裂症等精神疾病的人的精神状态,然后使用 AI 对结果进行评分 12 .这种检查着眼于心率、节律、音量、语气和言语量等因素,通常由临床医生进行,但没有足够的专家来尽可能频繁地评估个人。这项技术运行得足够好,随着进一步的开发和验证,它可能会通过为临床医生提供对患者精神状态的频繁测量来帮助临床医生。“我们仍处于对数十或数百人进行这些测试的阶段,而不是对需要验证的数千人或数万人进行验证,”Foltz 说。
一些从语音模式诊断痴呆的尝试已显示出希望。马萨诸塞州波士顿大学(Boston University)的计算工程师扬尼斯·帕斯卡利迪斯(Ioannis Paschalidis)将人工智能应用于轻度认知障碍患者的录音,发现他可以预测哪些人会在六年内患上阿尔茨海默病,准确率接近80%。 13 ).他和他的同事们在弗雷明汉心脏研究(Framingham Heart Study)中拍摄了对 166 人的采访录音,这是一项针对心血管健康的长期研究。他们从记录中知道,在记录后的 6 年内,90 名患有轻度认知障碍的人会下降。AI 模型根据对语音内容的分析,而不是对声学特征的分析,确定了哪些人会继续患上阿尔茨海默病。
寻找精神疾病的声音生物标志物的一个挑战是,一个人的精神状态会在几天甚至几小时内迅速波动。但是,收集足够的数据来了解波动,并了解哪些变化可能预示着情绪困扰,是一个漫长的过程,位于特罗姆瑟的挪威北极大学(Arctic University of Norway)的精神病学家布丽塔·埃尔维瓦格(Brita Elvevåg)说。“我们知道,当有人感到痛苦时,我们可以从声音中听到它,但问题是,我们以前能这样做吗?”Elvevåg 说,她在 1990 年代在美国国家心理健康研究所工作时首次与 Foltz 合作。她的目标是从 AI 语音分析中收集信息,以帮助预测某人何时可能处于困境中,以便她可以尝试阻止它。
从数千人那里收集了大量一般精神病学数据,并按年龄、性别和种族等因素进行分类,以确定某些语音信号在特定群体中的普遍程度,但大多数数据都是基于对特定时间点的观察。“现在,我们试图做的是突然使用技术进行建模,纵向了解我们明天的感受,一年后我们将如何应对,”Elvevåg 说。“我们就是没有那个数据库。”
事实上,整个语音生物标志物领域都需要更多数据来监测语音如何随研究人员研究的条件随时间变化——既要了解信号如何随疾病发展,又要了解个体的基线状态。尽管研究人员可以确定一个人的语音信号是否与已知患有特定疾病的队列相匹配,但他们目前无法将它们与该人的正常情况进行比较,这使得诊断变得困难。“仅仅因为某人降低了音高,并不意味着他们抑郁了,”帕特尔说。“我们需要有助于我们捕获更多纵向数据的研究方法。因为在你有纵向数据之前,我们不知道个体差异。
目前还没有大量可用于研究的标准化样本——也就是说,没有什么类似于推动基因组学和放射学图像发现的数据集。为了纠正这种情况,2022 年,Bensoussan 与纽约市威尔康奈尔医学院的生理学家 Olivier Elemento 合作,启动了“声音作为健康生物标志物”项目。这个为期 4 年、耗资 1400 万美元的项目由美国国立卫生研究院资助,涉及 50 个机构的研究人员。目标是收集 10,000 人的语音数据,以创建用于训练 AI 的公开数据集。(截至 5 月中旬,NIH 资金一直在变化,唐纳德·特朗普总统的政府下令广泛削减,法院暂停了这些命令。
参与者执行 20 项与语音相关的任务,包括阅读特定文本、自由发言回答问题、呼吸、咳嗽或发音长长的“e”音(如“feet”中的“e”音)。在去年 12 月的中途,该项目发布了它的第一次数据发布:美国和加拿大 306 人的 12,500 条录音。
该项目还在开发合乎道德地使用语音数据的方法。与任何健康数据一样,录音可以携带一个人可能不想透露的私人信息。在最初的版本中,该项目没有提供原始录音,只提供频谱图——声音的视觉表示,保留了研究人员感兴趣的特征,但去除了声音和所说的话。目标是使难以使用数据来收集识别说话者的信息,并将他们与他们的话语可能包含的私人信息相关联。不久之后,剑桥麻省理工学院的一位研究人员告诉 Bensoussan,他们开发了一种可以将频谱图转换回语音的算法。声音是机器人的,所以它没有识别出说话者的身份,但他们所说的一切都被恢复了。作为回应,该项目取消了对开放式语音的访问,只包括阅读预先批准的文本的人。
还有人担心人工智能可能会应用于语音,以发现一个人可能不想透露的行为信息 14 .2024 年,研究人员表明,他们可以将 AI 应用于录音以区分吸烟者和非吸烟者,女性的准确率为 71%,男性的准确率为 65% 15 .使用此类系统来验证人们告诉医生的内容可能会破坏医患信任,这可能会干扰治疗。
Bensoussan 说,声音生物标志物领域正在迅速发展。已经有一些公司推销系统,包括犹他州普罗沃的一家初创公司 Canary Speech,它销售所谓的临床决策支持系统,以提醒医生注意认知问题的迹象。当然,任何作为诊断工具销售的东西都必须获得美国食品和药物管理局 (FDA) 或类似机构的监管批准。“现在没有人获得 FDA 的批准,”Bensoussan 说。随着特朗普政府裁员并改变该机构的目标,FDA 的运作方式可能会发生变化。
她说,更多此类工具正在开发中。“我认为,他们会在接下来的两三年内逐渐渗透进来。然后可能在 3 到 5 天内,我们将在诊所中拥有更多的存在。“她停顿了一下,然后补充道,”如果它有效的话。
来源:当代生命哲学家一点号