摘要:今年9月,一家名为Nuance Labs的人工智能初创公司完成了1000万美元种子轮融资,由Accel 领投,Lightspeed和South Park Commons跟投,他们要让 AI 能够识别和理解人类的情绪,甚至在对话开始前就能“察言观色”。
现在的 AI 明明能写代码、分析数据,可跟人聊天时总差口气,你跟它说工作不顺心,它回复得逻辑满分,语气却毫无波澜,这些的原因是什么?有什么办法解决吗?
今年9月,一家名为 Nuance Labs 的人工智能初创公司完成了 1000万美元种子轮融资,由 Accel 领投,Lightspeed 和 South Park Commons 跟投,他们要让 AI 能够识别和理解人类的情绪,甚至在对话开始前就能“察言观色”。
Fangchang Ma 是 MIT 机器人学博士,Edward Zhang 有华盛顿大学计算机图形学博士学位,两人都曾在苹果工作。
两人认为,无论语言模型多么强大,只要没办法理解人类的情绪变化,就永远无法实现真正自然的人机对话。
Nuance Labs 的做法是通过 帧级别的情感建模,让 AI 具备识别人类微表情、语调变化、甚至肢体语言的能力。
根据 Nuance Labs 提供的数据,他们的系统可以在 0.8 秒内识别出32维情绪参数,包括紧张度、专注度、愉悦度、疲倦感等,并据此做出更贴合人类预期的回应。
这个系统不仅能处理语音,还能同步分析视频中的人脸表情、眼神变化和身体姿势。
Nuance Labs 的方法,是用 自回归建模方式一帧一帧地预测人类行为,就像语言模型预测下一个词一样,情感模型预测下一种表情、语调或反应,它通过观察与模仿来掌握情感表达的规律。
相比依赖大语言模型的情绪识别方案,Nuance Labs 的系统运行速度更快、成本更低,能实现真正意义上的实时交互。
当然,这事儿也不是没挑战,首先是数据问题,训练情感 AI 需要大量带标注的多模态数据,可情感标注太主观了 —— 同样一个表情,有人觉得是开心,有人觉得是敷衍,再加上文化差异,数据质量很难保证。
其次在实时性上,人类情绪是动态变化的,AI 得跟得上节奏,Nuance Labs 虽然说演示时能 “超播放速度渲染表情”,但真实场景里要保持这个性能,还得解决不少工程问题。
团队里还有两个关键人物,其中,Karren Yang 是一位专注音视频合成的博士,曾在 Meta Reality Labs 与 Niantic Labs 担任工程师;Claudia Vanea 来自牛津,研究方向是从复杂人类数据中提取情绪信号。
4 个人的技术背景覆盖了机器人学、图形学、音视频合成和 AI 健康,这让他们能把文本、语音、面部表情、肢体语言整合到一个系统里,实现实时情感交互 。
不过从应用场景来看,这技术的想象空间很大。在教育领域,它可以帮助 AI 教师根据学生表情和语气调整教学节奏;在心理健康领域,它可以成为实时情绪陪伴工具;在客服、游戏、影视等行业,它可以优化用户体验,提升交互自然度。
尤其是在医疗和特殊人群支持方面,情感AI的潜力被投资方认为是“比文字处理更具人类价值的方向”。
人机交互的下一阶段,已经不再是“让AI更聪明”,而是“让AI更人性”。技术能说话,但能否听懂一个人背后的情绪,决定了它能否真正走进人类生活。
来源:小芳医学科普