摘要:近日,由中国计算机学会(CCF)推荐的 A 类学术会议、人工智能领域国际顶级学术会议之一“AAAI 2026”公布论文录用结果。在中国电信集团CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的指导下,TeleAI 科研团队有多项成果成功
近日,由中国计算机学会(CCF)推荐的 A 类学术会议、人工智能领域国际顶级学术会议之一“AAAI 2026”公布论文录用结果。在中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的指导下,TeleAI 科研团队有多项成果成功入选,结合智传网(AI Flow)的理论研究和技术进展,重点聚焦长视频理解、视频时刻检索、遥感图像分割、多模态安全对齐等前沿方向。
AAAI 系列会议已举办至第四十届,其宗旨是推动人工智能领域的创新研究,促进领域内研究人员、从业者、科学家、学生和工程师之间的学术交流。本届会议共收到 23,680 篇有效投稿,创下历史新高,而录取率仅为 17.6%,远低于 2025 年的 23.4%,研究方向覆盖机器学习、自然语言处理、计算机视觉、数据挖掘等多个领域。
TeleAI 始终活跃在科学研究的最前线,在包括 AAAI 等多个顶级学术会议屡创佳绩。作为央企新型研发机构,TeleAI 构建了以 AI 治理、智传网(AI Flow)、智能光电(包括具身智能)、智能体为核心的“一治+三智”战略科研布局,并致力于面向国家重大需求和国家人工智能软硬件基础设施建设,深入探索前沿理论研究,推动重点技术攻关,打造服务民生的创新应用。
长视频理解
当前,多模态大模型在图文理解任务中已取得显著进展,但面对长视频时仍力不从心。一方面,模型存在上下文长度限制,无法直接处理完整长视频;另一方面,长视频的训练成本极高,须通过稀疏帧采样,即从视频中挑选少量帧,来降低输入数据量,才能让模型高效处理。
然而,现有稀疏帧采样方法存在明显缺陷。有的采用按固定时间间隔选帧的均匀采样方法,经常会错过与问题相关的关键信息;有的采用无训练采样方法试图优化选帧,但要么依赖预训练特征提取器,受限于固定能力无法适配不同任务,要么需调用大模型辅助选帧,计算成本高。
TeleAI 科研团队提出了一种强化学习框架 TSPO,首次将关键帧选择与多模态理解建模为联合决策过程,并设计轻量的事件感知时间代理,兼顾选帧精准性与效率。此外,团队还构建“大海捞针”训练数据构造框架与双奖励机制,同时实现采样模块跨多模态视频模型的迁移复用,提升对不同长视频场景的适配性。
TSPO 的创新,将减少长视频理解领域对大量人工标注数据的依赖,能够推动多模态模型在长时、复杂视频场景中的实用化与规模化发展。结合智传网(AI Flow)的智能传输能力,在远洋、高铁、航空等带宽受限场景的长视频传输中,可通过 TSPO 精准筛选关键帧,从而减少数据传输量,实现低延迟、高效能的长视频理解与应用落地。
C. Tang et al., "TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding", AAAI 2026, arXiv:2508.04369.
代码地址:
视频时刻检索
除了对长视频的理解,通过文字描述在视频中精准定位找到对应片段,也是多模态大模型在视频类场景中的重要应用方向之一。例如在交管监控中精准找到违规车辆,在影视制作中快速搜索片段素材,在电视新闻回溯中高效查询相关报道等。当下视频数据呈爆炸式增长,传统逐帧处理、模糊检索的方式已无法满足高效提取视频价值的需求。
传统方法靠固定模型推理,面对模糊场景容易判断失误,还可能出现“过度自信”的情况。此外,采用“深度证据回归”建模不确定性,无法平衡视频画面和文字信息,会导致模态失衡,且对不确定程度的判断存在偏差,本该对难样本警惕,却反而对准确样本标注高不确定性。
为了解决这些难题,TeleAI 科研团队提出了一项名为 DEMR 的新方法,让模型在复杂场景下更靠谱。其核心思路是通过“反射翻转融合”模块,让视频和文字信息反复交互,减少对画面的过度依赖。同时,增加“查询重建”任务,故意遮挡部分文字关键词,让模型学会结合视频前后情景理解文字,提升对文本的敏感度。
此外,团队还设计了“几何正则化器”,让模型遵循“预测准的样本多给信任,预测错的少给信任”的逻辑,解决判断颠倒的问题。结合智传网(AI Flow)的分层网络架构,DEMR 可以带来高精度、可量化的“视频-文本”检索能力,并在“端-边-云”的不同智能节点之间自由流动,按需响应,极大提升视频内容检索的效率和准确性。
H. Hang et al., "Adaptive Evidential Learning for Temporal-Semantic Robustness in Moment Retrieval", AAAI 2026, arXiv:2408.16272.
遥感图像分割
现今,遥感图像凭借其覆盖范围大、时效性高、观测尺度多等核心优势,已渗透到城市管理、乡村规划、生态监测、抢险救灾等多种场景和领域。然而,传统遥感图像分割长期聚焦于固定的预定义类别,例如特定类型的土地覆盖、建筑或植被等,但随着应用需求的不断增长,传统有限类别分割方法的短板愈发明显。
现有的开放词遥感图像分割技术虽然能借助视觉语言模型和跨模态学习能力突破传统训练类别的限制,但因无统一评估标准,不同模型的性能对比缺乏公平性和说服力,无法推动领域系统性发展。为此,TeleAI 科研团队构建了一套统一的 OVRSISBench 基准,提供公平、一致、可扩展的评估平台,从而解决评估标准混乱的行业痛点。
OVRSISBench 整合了 8 个常用的遥感数据集,涵盖从航空到无人机、从城市到农业的多样化场景,且包含小目标、复杂地形等挑战性数据,能全面测试模型的泛化能力。此外,TeleAI 还提出 RSKT-Seg 框架,通过三个核心模块实现旋转不变性、空间与语义依赖建模及领域适配。
模块1:多方向成本图聚合模块(RS-CMA)。解决遥感图像中目标因航拍角度、卫星轨道变化呈现的旋转任意性问题,弥补传统模型因角度差异导致的类别误判缺陷。
模块2:高效成本图融合模块(RS-Fusion)。解决传统模型在处理遥感图像分割时难以兼顾空间判别性、类别判别性与推理速度的问题,实现分割精度与推理效率的平衡。
模块3:遥感知识迁移上采样模块(RS-Transfer)。
解决遥感图像分割中低分辨率成本图缺乏细节纹理、模型难以适配遥感领域特征的问题,提升模型对遥感场景的适配性。
OVRSISBench 首次构建了统一的开放词汇遥感图像分割评估基准,解决了该领域长期缺乏标准化评估平台、模型性能难以公平对比的痛点,为后续研究提供了“统一标尺”。RSKT-Seg 框架则为开放词汇遥感图像分割技术发展提供了高效可行的新范式,结合智传网(AI Flow)的核心能力,能够适配遥感监测、城市规划、灾害应急等实际场景对新增类别分割、实时处理等需求。
B. Li et al., "Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing", AAAI 2026, arXiv:2509.12040.
代码地址:
多模态安全对齐
正如前文的相关研究,多模态大模型已逐渐在包括视频理解、视频检索、遥感图像分析等各领域落地创新应用,但在多模态场景下仍存在安全对齐较脆弱的问题,易受跨模态输入攻击产生有害影响。现有研究虽关注多模态大模型的跨模态安全评估,但未解决“隐式推理风险”这一核心难题。
在模型的推理过程中,各种单一模态的数据输入形成多模态数据时,会诱导模型产生有害输出,难以维持全程安全对齐。若在推理步骤中某一环节出现错误,其会沿着后续分支传播累积,最终导致模型偏离安全方向,输出危险结果。只有在每一步推理中均优先考虑安全规则,模型才能给出正确响应。
为此,
TeleAI 科研团队从
数据集、训练框架、评估基准
三个维度提出创新解决方案,形成
“数据-训练-评估”
的完整技术链条。
创新1:首个针对隐式推理风险的可解释数据集 SSUI。聚焦跨模态隐式推理风险,含可解释推理路径,解决了现有数据缺乏推理过程标注的问题。
创新2:首个针对多模态长链推理安全对齐的训练框架 SRPO。通过“生成式探索”和“路径优化”双阶段设计,使模型推理过程与人类安全价值观对齐。
创新3:首个评估推理路径安全与有效性的基准 RSBench。填补了现有基准仅评估模型最终输出安全,忽略推理过程质量的空白。
此项研究不仅能在技术层面解决多模态大模型跨模态安全推理的问题,还将为智传网(AI Flow)的应用带来重要安全保障。基于此,多模态大模型在工业、医疗、电商、教育等多种实际应用场景将得到更广阔的落地空间。
W. Cai et al., "When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models", AAAI 2026.
来源:TeleAI
