1冠2亚+4篇顶会论文,联想的技术让机器也能识别情感

B站影视 欧美电影 2025-10-29 01:50 1

摘要:10月27日,多媒体领域国际顶会ACM MM 2025在爱尔兰都柏林开幕。在大会举办的各种学术活动中,联想研究院个人计算创新及生态系统实验室(PCIE Lab)表现亮眼。

10月27日,多媒体领域国际顶会ACM MM 2025在爱尔兰都柏林开幕。在大会举办的各种学术活动中,联想研究院个人计算创新及生态系统实验室(PCIE Lab)表现亮眼。

首先,在ACM MM 2025 上举办的多模态情感识别竞赛(MER2025) 中,团队一举斩获 1 项冠军与 2 项亚军,展现了团队在该领域的技术硬实力。此外,实验室另有 4 篇相关论文成功入选大会主会,进一步彰显了联想在多模态情感识别与视频理解领域的持续创新能力与行业影响力。

大模型驱动情感计算:MER2025情感计算挑战赛

MER2025情感计算挑战赛以“大模型驱动情感计算”为主题,设四个赛道:半监督情感分类、细粒度情感识别、多模态可解释性分析,以及情感预测对性格识别的促进作用,旨在推动生成式方法在情感理解中的创新应用。

联想研究院在三个核心赛道均取得突破性成果:

人格识别赛道冠军(MER2025 – Personality Recognition):所谓“人格识别“指的是让机器理解人的性格特征,比如判断用户的性格是外向还是内向,谨慎还是冒险,从而个性调整交互策略,实现更贴切、自然的互动。在该赛道中,我们创新性地提出“情感增强的多模态人格预测框架”,突破性地将人格特质预测与情绪识别任务相结合。通过联合优化人格预测和情绪预测的损失,提高了模型的泛化性能。模型在MER-PR验证集上取得第一名,这为我们探索情绪和人格之间的复杂相互作用提供了经验证据。

半监督情感识别赛道亚军:半监督情感识别赛道的核心目标,是解决当前情感识别领域普遍存在的数据匮乏、数据标注成本高的痛点。为此,引入半监督学习技术,通过有效利用大量无标签数据,辅助提升模型在少量标签数据集上的情感识别准确率。在该赛道竞赛中,我们提出了一个基于“越多越好”原则的混合专家(Mixture of Experts (MoE))框架,将各种输入模式作为独立的专家进行整合,包括来自大型视觉语言模型(VLM)和临时动作单元(AU)信息的新信号问题知识,并采用基于感知的伪标记策略有效利用未标记数据。采用多专家投票组合,结合基于arule的排名过程来纠正预测偏差,并使输出与人类偏好相匹配。在测试集上取得了87.7%的F1分数,荣获第二名。

细粒度情感识别赛道亚军:相较于基础情感(通常为开心、悲伤、愤怒等 6 分类情感),这里的 “细粒度” 情感识别有更明确的定义:它不仅能覆盖更丰富、层次更细致的情绪类别,还能捕捉同一情绪下的强弱差异与微妙区别,比如将 “开心” 细分为高兴、满足、惊喜,将 “生气” 细分为烦躁、愤怒、失望;通俗来讲,其感知目标不只是识别 “情绪类型”,更能精准捕捉 “情绪细节和强度”,在实际场景中应用广泛,比如客服系统可借此准确判断用户的不满程度,教育系统能识别学生的专注与困惑状态,社交机器人也能更自然地回应人类情绪。简单来说,普通情感识别是 “知道你高兴”,而细粒度情感识别则是 “知道你是小兴奋还是狂喜”。

在该赛道的竞赛中,团队提出的ZeroES零样本集成框架实现了重大突破——无需任何训练即可在开放词汇情感识别任务中达到领先水平,通过协同利用Gemini和InternVL等大规模视觉语言模型的原始能力,结合轻量级情感锚点与常识校准,重新定义了开放词汇视频情感识别。在MER2025-FG竞赛中,该框架以60.1%的F1分数排名第二,性能超越微调基线,证明了开放词汇的鲁棒性源于模型广度与组合灵活性,而非任务特定的优化。

四篇论文被大会接受,推动多模态感知和视频理解技术发展

除了在以上竞赛中取得的佳绩,联想研究院团队还有相关的四篇论文入选主会,覆盖了视频理解、安全生成、多模态融合、情感识别等多个前沿方向:

《TV-RAG:面向长视频检索与理解的时序感知语义熵加权框架》:本文提出TV-RAG框架,通过时间衰减检索模块和熵加权关键帧采样器,解决了大型视频语言模型在长视频处理中时序窗口窄、难以捕捉语义变迁的难题。该无需训练的架构能作为插件提升现有模型性能,在多个长视频基准测试中表现优异。

《基于情感增强多模态融合的人格预测方法》:该研究提出了一个通过联合学习情绪识别来增强人格预测的多模态框架。该方法通过联合优化两个任务的损失,验证了情绪信息对人格预测的增益作用,并在MER2025挑战赛的相关任务中取得了第一名。

《CoFi-Dec:通过粗到细生成反馈抑制大模型幻觉》:为减少大视觉语言模型的“幻象”问题,本文提出了CoFi-Dec解码框架。它通过生成粗、细粒度视觉条件下的响应,并利用基于Wasserstein距离的融合机制统一其预测,无需训练即可显著提升输出内容的忠实度。

《PurifyGen:面向安全文生图的风险判别与语义净化模型》:本文提出了PurifyGen模型,通过计算语义距离判别风险,并利用双空间变换将其有害语义成分去除、同时强化安全语义。这种无需训练的方法能有效净化生成内容,并保持原提示词的生成意图。

成果应用:情感智能赋能多行业场景

联想的技术成果已在多个重要场景中展现出应用潜力。在智能办公领域,在会议场景中,通过智能感知参会者的专注度与情绪状态,为演讲者提供实时数据反馈,从而辅助演讲者动态优化演讲策略与内容节奏,显著提升会议沟通与决策效率;在智慧教育方面,通过分析学生的课堂专注度与情绪反馈,将数据转化为对教学效果的有效评估,帮助教师与家长实时掌握学生的理解程度,为实现个性化辅导与精准教学管理提供科学依据;在数字健康领域,系统通过持续追踪与量化个体的情绪波动,为心理健康提供客观的数字化指标。此举不仅能实现早期风险预警,更能为用户推送个性化的心理调适方案,实现从被动治疗到主动关怀的模式创新。

特别值得一提的是,我们的技术应用于青少年网络防沉迷国家项目的研发与实施中,通过分析用户行为与情绪状态,为青少年健康上网提供智能守护,体现了科技向善的社会价值。

继在 CVPR 2025 斩获四项冠军与两项亚军后,联想研究院团队此次再以强劲实力亮相 ACM MM 2025,持续彰显了联想在多模态感知和视频理解领域的行业领先地位。

来源:白腿哥科技讲

相关推荐