ACM MM 2025 | TeleAI 多项成果入选,聚焦多模态能力增强、跨模态对齐及安全保障

B站影视 内地电影 2025-09-11 18:43 2

摘要:从“单一感知”迈向“通用智能”是大模型进一步发展并实现广泛落地的关键。通过整合文本、图像、音频、视频、传感器数据等多维度信息,大模型的多模态能力将重塑人工智能的技术边界与产业格局。

从“单一感知”迈向“通用智能”是大模型进一步发展并实现广泛落地的关键。通过整合文本、图像、音频、视频、传感器数据等多维度信息,大模型的多模态能力将重塑人工智能的技术边界与产业格局。

据行业预测,2025 年全球多模态大模型市场规模将突破 800 亿美元,技术红利将渗透至医疗、教育、制造等多个核心产业。然而,要实现从“感知智能”到“认知智能”的跨越,仍需解决数据偏见、可解释性等深层挑战。

近日,由中国计算机学会(CCF)推荐的 A 类会议、多媒体领域国际顶级会议 ACM MM 2025 公布论文录用结果,中国电信人工智能研究院(TeleAI)共有 8 项成果入选,聚焦多模态大模型的能力增强、跨模态对齐及安全等重点方向研究。

多模态能力增强

作为实现多模态理解的关键工具,大型视觉语言模型(LVLMs)在机器人交互、内容生成、人机交互等领域应用广泛,其核心需求是通过后训练对齐人类偏好,以确保输出符合人类对“视觉-文本”关联的判断,包括响应准确性、逻辑性等。

然而,当前 LVLMs 的偏好对齐依赖高质量多模态偏好数据,而此类数据的获取与利用存在显著瓶颈。传统方法多依赖直接蒸馏强模型的偏好排序,无法解决合成数据的模糊偏好边界问题。同时,由于对低置信数据处理不当,要么完全丢弃,要么传播噪声,导致性能次优。

为此,TeleAI 团队提出了一种 CaReVL 方法,首先利用强 LVLMs 与字幕引导的辅助专家模型筛选高置信数据,用于监督微调(SFT);再通过 SFT 模型对低置信数据生成多组偏好响应,结合多维度评分(相关性、准确性、逻辑性、清晰度)与 Best-to-Worse 负采样策略构建可靠的“选择-拒绝”对,用于直接偏好优化(DPO)。

此方法在不依赖私有数据的情况下,通过精细化数据处理与分阶段训练,能够显著提升LVLMs 的偏好对齐能力,在 VL-RewardBench 和 MLLM-as-a-Judge 两大基准上优于传统蒸馏方法,验证了其有效性,为多模态大模型的人类偏好对齐带来新思路。

LVMLs 通过奖励模型进行偏好对齐

如果说跨模态理解能力决定着多模态大模型的深度,那么生成能力则决定着其应用的广度。以图像生成为例,可缩放矢量图形(SVG)是前端开发与 UI/UX 设计领域的核心技术,但“将抽象设计意图转化为精准 SVG 代码” 的过程仍存在着局限与挑战。

通过深度学习方法(如 DiffVG)将光栅图转化为矢量图像,虽然在效率上有所提升,但仍未能实现“文本到 SVG”的直接转换。而分路径序列发和优化发由于依赖扩散模型生成 bitmap 再转为 SVG,不仅生成效率低且不可编辑。

为了解决 SVG 生成中“概念到代码”的技术瓶颈,TeleAI 科研团队构建了包含 100 万高质量 Text-SVG 对齐对的 SVG-1M 数据集,并提出 SVGen 模型,可直接根据自然语言生成结构完整、可编辑的 SVG 代码,显著提升从概念到代码的自动化与效率。

SVGen 模型整合了渐进式课程学习、CoT 思维链推理、GRPO 强化学习三项关键技术。

结合 CoT 提升可解释性,TeleAI 采用了由简至繁的渐进式课程学习训练策略;在数据层面提出 SVG-1M,包含多层语义标注与部分 CoT 强化对齐;还设计了一套“完整性奖励+路径数量匹配奖励”机制,并通过 GRPO 约束结构的完整性与复杂度。

SVGen 模型工作流程

实验表明,SVGen 在关键指标上显著优于现有方法(FID 最低 27.82、美学分数最高4.8924、生成时间最短 7.56s),实现了文本到 SVG 的高语义匹配、高结构完整性生成,支持实时 AI 辅助设计迭代。

除了生成图像,通过文本驱动生成“交互式运动”在游戏、影视等领域中也有着迫切需求。其潜力在于替代传统动作捕捉技术,推动内容创作流程的变革与升级。然而,如何让虚拟角色在响应文本描述动作的同时,严格遵循指定轨迹或在特定区域内完成交互,是实际应用中的关键挑战。

现有方法存在着明显局限性,例如单主体动作生成方法无法建模多角色间的交互依赖关系,在多人互动场景中难以保证动作的连贯性与合理性。而依赖文本描述轨迹的交互式生成方法,由于文本本身难以精准传达用户预期的轨迹细节,常常导致生成动作出现轨迹不匹配或物理穿透等问题,尤其在复杂交互场景中表现不佳。

为解决这些不足和问题,TeleAI 研究出了一套融合 Lead-Follow 范式与轨迹引导的完整框架。该范式将复杂的双人交互动作分解为“领导者-跟随者”模式。基于双人动作的交换性特征,随机指定一方为领导者,优先优化其运动轨迹,再根据领导者的轨迹调整跟随者的动作,以此简化交互建模的复杂度,确保两者动作的连贯性与空间一致性。

基于文本和轨迹输入的运动生成流程

Lead-Follow 包括两大关键模块。

Pace Controller 用于精准控制领导者的轨迹,基于单向扩散和动作范围优化过程设计。在轨迹形成的关键中期阶段,通过直接引导策略,确保轨迹起始的准确性;同时,利用优化函数最小化生成轨迹与目标轨迹的均方误差,进一步提升轨迹的精度。

Kinematic Synchronization Adapter 则用于协调跟随者与领导者的动作,避免穿透。通过 SMPL 模型构建交互域冲突检测模块,当检测到两者空间位置重叠时,基于领导者与跟随者的相对空间关系调整跟随者的轨迹。引入相对空间约束控制两者的空间距离,同时添加正交损失作为惩罚项,确保交互的多样性。

Lead-Follow 范式演示

实验结果显示,该方法在多项关键指标上表现优异,体现出更高的“文本-动作”一致性、运动真实性及交互合理性。Lead-Follow 范式与双模块设计不仅实现了虚拟角色动作在文本语义与三维轨迹约束下的精准平衡,更在复杂交互场景中展现出优异的自然性与可控性,为游戏制作、动画生产等领域的实用化应用提供了关键技术支撑。

面向图像修复场景,TeleAI 还打造了“图像理解编辑修复模型 SmartFreeEdit”,通过强大的空间推理与复杂指令理解能力,可实现无需手动掩膜(Mask-Free)的图像精准编辑与修复,彻底解放用户双手,让“一句话 P 图”高效好用。

SmartFreeEdit 整体框架

作为一种扩散模型,SmartFreeEdit 能够实现更强的空间推理能力、语言指令精细化解析能力及高质量图像编辑修复能力。这种“以语言为画笔”的创作模式,将推动 AI 从工具层面向创意决策层跃迁,在数字经济与智能制造中开辟更广阔的应用蓝海。

跨模态特征对齐

消除模态鸿沟,实现语义统一,是多模态大模型的基础,也是跨模态特征对齐的本质。通过算法将文本、图像等不同模态的特征转化为同一语义空间中可比的向量,能够推动多模态大模型从“单模态处理”走向“跨模态交互”,也是实现图文检索、文本生图、多模态问答等复杂任务的前提。

以 CLIP 和 ALIGN 为代表的视觉语言模型(VLMs)由于参数规模大、推理耗时高,导致在实际应用中难以部署,带来严重的工程化难题。同时,现有的模型压缩和蒸馏方法多侧重于全局特征模仿或单模态优化,缺乏对局部细粒度语义及跨模态交互知识的充分建模,影响了模型在细粒度分类和跨模态理解任务中的泛化能力。

针对这些痛点,TeleAI 提出了一种知识感知交互蒸馏方法 KAID,通过引入“图像特征匹配模块”(IFM),实现从全局到局部的分层知识转移,提升学生模型对细粒度信息的感知;还设计了“像素级对齐模块”(PWA)和文本引导的像素对齐损失(TPLoss),利用跨模态注意力机制强化图文间的细粒度语义对齐,提升学生模型的跨模态推理能力。

KAID 整体框架

实验结果表明,KAID 有效解决了 VLMs 蒸馏中细粒度感知不足与跨模态交互缺失的问题,在 11 个数据集上均取得了领先的泛化性能,相比现有方法在多个评测指标上有显著提升。

面向多模态分割领域,TeleAI 还提出了 StitchFusion 框架,可以解决多模态语义分割中现有方法依赖专用特征融合模块(FFM)导致输入灵活性低、训练参数多的问题。此框架使用简单的模态适配器巧妙地将 Encoder 作为特征融合器,利用 Encoder 的编码能力仅增加少量参数和极少 GFLOPs 就可以实现高效的模态融合。

StitchFusion 整体框架

StitchFusion 通过编码阶段融合 MoA 模块,在 7 个开放数据集和 1 个水下自组织的数据集上实现了 SOTA 性能,同时保持低参数增量与模态灵活性,并验证了与 FFM 的互补性。它打破了传统范式的局限,能够实现多模态大模型的精度与效率平衡,拓展更多应用场景。

跨模态安全保障

随着大型视觉语言模型(LVLMs)在各种应用中的日益普及和集成,其安全对齐的脆弱性问题引发了越来越多的关注。现有的安全数据集主要针对单模态输入(例如,图像或文本),而往往忽略了跨模态场景。在这些跨模态场景中,本身无害的图像和文本在组合后可能形成一个不安全的语义,从而可能引发 LVLMs 产生有害的输出。

例如,一张铁轨的图片若配上“鼓励在铁轨上拍照”这样的文本,一旦 LVLMs 认可该行为,就可能被解读为危险的怂恿,可能导致用户自我伤害。一个鲁棒且安全的 LVLMs 应当拒绝此类请求或对用户进行劝阻。此外,LVLMs 在处理这些复杂情况时的推理过程通常是不透明的,缺乏可解释性,使其立场变得不可预测。

SSUI 示例

为解决大视觉语言模型(LVLMs)在多模态输入下的安全隐患,TeleAI 提出隐式推理安全(IRS)概念,即单独良性的图像与文本结合后,可能因 LVLMs 推理不透明引发不安全输出;为此还构建首个针对该问题的 SSUI 数据集,包括“安全输入选择+五阶段 AI 辅助生成”流程,并涵盖 9 大类风险场景。

此研究首次识别并正式定义了 LVLMs 中的“隐式推理安全”问题。同时,提出了首个专为此挑战设计的、具有可解释推理功能的安全数据集。SSUI 数据集包含了为可解释性推理而精心设计的提示(Prompts),能够引导 LVLMs 选择最合理的推理路径,从而使其输出与安全偏好对齐,并增强 LVLMs 的过程可解释性。

此外,TeleAI 还提出了一个 SecTOW 框架,基于迭代“防御-攻击”训练,通过 GRPO强化学习,实现“攻击者暴露漏洞→防御者修复漏洞”的循环,最终提升多模态大模型安全性并保持通用性能。

SecTOW 整体框架

SecTOW 构建了“防御者”和“攻击者”双模块,攻击者识别防御者漏洞并生成越狱数据,防御者利用这些数据优化防御策略。同时,团队还设计了规则化奖励机制减少复杂生成标签依赖,通过质量监控机制保障训练质量。

实验显示,SecTOW 在 JailBreakV-28k、FigStep 等 4 个安全基准上显著降低攻击成功率(ASR),且在 MMMU、MMMU-Pro 等通用基准上保持性能,实现了安全与通用性能的平衡。

相关论文:

·From Captions to Rewards (CaReVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models

·SVGen: Interpretable Vector Graphics Generation with Large Language Models

·Leader is Guided: Interactive Motion Generation via Lead-Follow Paradigm and Trajectory Guidance

·SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding

·KAID: Knowledge-Aware Interactive Distillation for Vision-Language Models

·StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation

·Safe Semantics, Unsafe Interpretations: Tackling Implicit Reasoning Safety in Large Vision-Language Models

·Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security

来源:TeleAI

相关推荐