TeleAI 七项成果入选国际顶会 NeurIPS 2025

B站影视 内地电影 2025-09-20 19:32 1

摘要:近日,由中国计算机学会(CCF)推荐的A类学术会议、人工智能领域顶级国际会议之一“NeurIPS 2025”(神经信息处理系统大会)公布论文录用结果。中国电信人工智能研究院(TeleAI)共有7项成果成功入选,重点聚焦正激励噪声(Pi/π-Noise, Pos

近日,由中国计算机学会(CCF)推荐的 A 类学术会议、人工智能领域顶级国际会议之一“NeurIPS 2025”(神经信息处理系统大会)公布论文录用结果。中国电信人工智能研究院(TeleAI)共有 7 项成果成功入选,重点聚焦正激励噪声(Pi/π-Noise, Positive-incentive Noise)、具身智能,以及大模型推理加速、图像生成、多模态理解。

结合 TeleAI 重点布局且正在推进研发的智传网 AI Flow,包括大模型、具身智能等前沿技术的创新和落地将得到加速发展。同时,本次入选 NeurIPS 2025 的研究成果,也将为 TeleAI 在智传网(AI Flow)的研发提供基础支撑。

作为央企新型研发机构,TeleAI 构建了以 AI 治理、智传网(AI Flow)、智能光电(包括具身智能)、智能体为核心的“一治+三智”战略科研布局,并致力于面向国家重大需求和国家人工智能软硬件基础设施建设,深入探索前沿理论研究,推动重点技术攻关,打造服务民生的创新应用。

正激励噪声(Pi/π-Noise)

在大模型训练中,“预训练模型(PTM)”起着至关重要的作用。通过在大规模通用数据上提前完成训练,PTM 具备基础特征提取及知识理解的能力,能够为大模型解决数据少、成本高、泛化弱的核心痛点,是推动大模型技术迭代和应用创新的重要引擎。

为了让大模型从“静态通用”向“动态自适应”升级进化, “类增量学习(CIL)”是持续学习的重要范式之一,其目的是让模型能够模型能够持续学习新类别知识,但不遗忘旧类别知识。PTM 则因其强大的泛化能力,在 CIL 中表现出巨大潜力。

主流方法通常对 PTM 主干网络进行轻量级微调,此类方法的核心问题是参数漂移,即模型参数因适配新任务而偏离预训练时学到的关键模式,进而“遗忘”旧任务知识,从而损害 PTM 的泛化能力。TeleAI 研究团队将参数漂移视为一种“噪声”,此类噪声会掩盖先前任务中学到的关键模式。

近年来的研究表明(特别是正激励噪声 Pi/π-Noise 的相关研究),噪声并不总是有害的,适当的噪声可以抑制低相关性特征,为持续学习中的新增任务留出空间。受正激励噪声系列研究的启发,TeleAI 提出 MIN(Mixture of Noise,噪声混合)方法,用于解决基于预训练模型(PTM)的类别增量学习(CIL)中的参数漂移问题。

MIN 将参数漂移视为对旧任务有害的噪声,并提出学习“有益噪声”(正激励噪声,Pi/π-Noise,Positive-incentive Noise)来抑制任务间的混淆模式。该方法从信息论角度出发,通过噪声扩展(Noise Expansion)为每个任务学习特定有益噪声,再通过噪声混合(Noise Mixture)动态调整权重融合多任务噪声,将其嵌入中间特征以掩盖无效模式。

噪声扩展(Noise Expansion)策略:为每个任务设计一个轻量级噪声生成模块,通过低秩近似方式高效生成任务特定噪声,抑制低相关特征纳入当前任务的决策边界。噪声混合(Noise Mixture)机制:通过可学习的权重动态混合不同任务的噪声,优化跨任务协作,同时避免多次推理。

MIN 还采用分析学习(Analytic Learning)更新分类器,并通过辅助分类器训练噪声生成器,最终将混合噪声嵌入中间特征以抑制与任务无关的特征。

MIN 在多数增量设置下实现 SOTA 性能,尤其在 50 步增量设置中优势显著。该工作证明,合理设计的噪声并非干扰因素,而是可优化特征表达、平衡新旧任务性能的关键工具,为持续学习领域提供了“噪声辅助学习”新范式。

此外,MIN 的增量学习能力与参数效率优势,还可直接适配于智传网(AI Flow)在场景化智能部署中的关键需求,为智传网(AI Flow)中的家族式同源模型开发提供“持续学习、低资源消耗、高泛化”的技术支撑。

相关论文:

K. Jiang et al., "MiN: Mixture of Noise for Pre-Trained Model-Based Class-Incremental Learning", NeurIPS 2025.

具身智能

随着大模型技术的快速发展,具身智能已成为人工智能创新和落地的前沿热点。从春晚的机器人扭秧歌,到首届机器人运动会,再到生产车间的机械臂、物流仓储的 AGV 小车,具身智能正以肉眼可见的程度加速迭代,频频走进大众视野。

然而,繁荣发展的背后仍面临诸多挑战,如因大语言模型的幻觉问题,导致机器人在执行任务中的不确定性问题;以及如何让人形机器人能够像人类一样保持对身体的控制稳定性,并让人形机器人学习多种多样的高动态人类技能。

为了进一步提升机器人的控制稳定性和身体协调性,让它们能够更像人类一样具备灵活的运动能力及应对复杂高动态行为模仿的能力,TeleAI 提出了具身不确定性规划框架 CURE、高动态全身运动框架 KungfuBot、上下肢对抗训练与协同框架 ALMI 三项创新成果。

不确定性估计框架 CURE

大语言模型的“幻觉”问题像一颗隐形炸弹,潜藏在机器人规划与执行的全流程中。这些模型常自信地生成看似合理、实则错误或无法落地的计划,比如误将非饮用物品当作饮品递送给用户。同时,人类指令中固有的模糊性,进一步加剧了机器人的决策困境。

CURE 框架则将规划不确定性进行细粒度分解与针对性估计。

一方面,把认知不确定性拆分为“任务清晰度”与“任务熟悉度”,通过大语言模型查询与高效神经网络双路径评估指令模糊性,借助随机网络蒸馏(RND)衡量当前任务与已知任务的相似性。另一方面,通过多层感知器网络预测计划的“预期成功率”,量化环境固有因素带来的内在不确定性。

最终,CURE 通过科学加权公式整合各维度评估结果,输出与实际执行风险高度匹配的整体不确定性值,且无需修改现有模型规划器结构,实现“即插即用”。此框架将为机器人具身智能的产业化落地提供关键技术支撑,提升机器人规划的可信度。

在家庭服务场景中,它能让家政机器人更精准理解“帮我拿点喝的”这类模糊指令,避免拿错物品;在工业协作场景下,可辅助机械臂判断任务熟悉度与执行风险,减少生产事故;甚至在医疗辅助领域,也能为机器人的精准操作提供可靠性保障。

全身控制框架 KungfuBot

动作捕捉技术与海量运动数据集的出现,让人形机器人可以模仿人类的复杂动作。但由于人类动作数据经常违反机器人物理约束,易陷入“无可行解”的困境。同时现有方法缺乏对高难度动作的跟踪容忍机制,导致训练效率低、泛化性差难以满足真实场景对机器人动态能力的需求。

KungfuBot 全身控制框架则聚焦“高度动态动作模仿”这一核心难题,从运动处理到策略训练进行全流程创新,让人形机器人能够稳定掌握武术冲拳、360 度旋转、舞蹈律动等复杂技能,并已成功在 Unitree G1 机器人上实现真实部署。

KungfuBot 构建了从运动处理到自适应跟踪,再到 RL 训练的“三位一体”的技术体系。首先,通过“运动处理流水线”为机器人筛选适配动作;其次,基于“自适应运动跟踪机制”动态调整精度;最后,通过“RL 训练框架”提升机器人的强化学习效率。

这一工作将为多个领域带来变革可能。在娱乐与教育领域,搭载该技术的机器人可化身武术教练、舞蹈老师,通过精准动作示范辅助教学,或在舞台上呈现高难度艺术表演。

在工业与服务领域,高度动态的全身控制能力让机器人能更灵活地处理复杂操作,如精密装配、紧急救援中的快速动作响应。

该框架将为人形机器人模仿人类高动态技能提供可复用的技术范式,推动机器人从“慢动作执行者”向“敏捷技能掌握者”跨越,为未来人机协同场景奠定核心技术基础。

对抗性运动与动作模仿框架 ALMI

除了模仿人类动作,机器人还需要对自己进行全身控制,下肢要能够稳定支撑身体、调整步态,上肢精准执行挥手、抓取等细节操作。传统方法大多将机器人全身当作一个整体,用运动重定向和强化学习优化控制策略,却忽视了上下肢的独特作用。

而 ALMI 框架则能让人形机器人的上下肢各司其职、相互作用、共同进步。其将机器人的上下肢控制策略彻底分离。

下肢专门负责遵循速度指令,如按照设定的x 轴、y 轴线性速度和偏航角速度移动,同时还要抵抗上肢动作带来的干扰,确保哪怕上肢大幅度运动,机器人也能稳稳站立或行走。

上肢则专注于跟踪参考动作,无论是敬礼、挥手还是握手,即便下肢在不平坦的地面上移动、出现轻微不稳定,上肢也要精准完成动作。

这两种策略并非独立训练,而是通过“对抗性训练”形成互动。下肢在应对上肢干扰的过程中变得更稳健,上肢在适应下肢波动的过程中变得更精准,就像两个人在博弈中互相提升,最终达成一种动态平衡。

这项研究不仅解决了人形机器人全身控制的核心难题,更给行业带来了实实在在的技术和数据支撑。结合智传网(AI Flow),ALMI 可以通过对人形机器人进行遥操作,让它们走进工厂、医院、火灾现场,辅助人类进行零件装配、设备搬运及抢险救灾等。

相关论文:

S. Yin et al., "Towards Reliable LLM-based Robots Planning via Combined Uncertainty Estimation", NeurIPS 2025.

W. Xie et al., "KungfuBot: Physics-Based Humanoid Whole-Body Control for Learning Highly-Dynamic Skills", NeurIPS 2025, arXiv:2506.12851.

J. Shi et al., "Adversarial Locomotion and Motion Imitation for Humanoid Policy Learning", NeurIPS 2025, arXiv:2504.14305.

大模型推理

大模型推理是人工智能落地产业的“最后一公里”,其核心价值在于通过自动化、智能化的推理能力,替代或辅助人类完成高复杂度、高重复性的任务,不仅决定了 AI 技术能否落地生效,更直接影响着 AI 应用的精度、效率和安全边界。

众所周知,大模型的核心工作方式之一是“自回归生成”,也就是一个 token 接一个 token 地生成。这其中包含两个核心逻辑,一个是“顺序性”,即按照顺序逐个生成;另一个是“依赖性”,即每生成一步,都依赖于前一步的生成。

在包括 Llama、Mistral 在内的大语言模型中,自回归解码速度慢、计算成本高成为阻碍推理进程和技术落地的拦路虎。级联投机解码方法虽能进一步提升速度,但需训练多个草案模型,实用性较低。

为此,TeleAI 提出了 CAS-Spec 算法,旨在解决级联推测解码需训练多个草稿模型的高成本问题。此算法使用动态可切换推理加速(DSIA)策略(如层稀疏、激活量化),无需额外训练,就能从单一目标模型中构建多级草案模型。

此外,CAS-Spec 还采用动态树级联(DyTC)方法,通过“在线接受率估计”与“硬件感知延迟预测”,动态选择最优草稿模型、分配草稿长度,避免静态调度的僵化问题,最大化整体加速效果。

在实际应用中,CAS-Spec 的推理加速方法可融入智传网(AI Flow)的分布式推理架构,利用 CAS-Spec 加速本地模型推理,减少数据传输量,再结合“端-边-云”分布式推理,将初步结果传给到服务器进一步处理,降低系统端到端延迟。

在图像生成的过程中,自回归模型通常按固定空间顺序(如栅格扫描)逐像素生成图像。这种方法难以捕获全局结构、计算耗时,且忽视了自然图像的频率层次特性,即低频编码全局结构,高频包含局部细节。

传统自回归方法长期受困于三大核心难题:按固定空间顺序逐像素生成,难以捕捉图像全局结构;生成过程计算密集、耗时严重,无法满足实时应用需求;自回归序列设计脱离图像自然层级,导致生成内容缺乏连贯性。

针对图像生成的推理过程,TeleAI 提出了 NFIG 算法框架,依据自然图像的频谱层级结构,将生成过程分解为多个频率引导阶段,先通过少量tokens 生成捕捉全局结构的低频成分,再逐步添加高频细节。

NFIG 框架采用了频率驱动的生成范式,首次提出“下一频率预测”,按低频到高频顺序渐进生成图像。此外,还设计了频率引导残差量化 VAE(FR-VAE)和频率感知自回归生成两大关键组件。

频率引导残差量化 VAE(FR-VAE),通过 FFT 分解图像为不同频率分量,低频用少量 token、高频用更多 token 实现高效表示。

频率感知自回归生成,先以少量 tokens 生成低频成分,快速建立图像全局框架,再迭代添加高频细节,逐步优化视觉效果。

在实时生成场景中,NFIG 生成 256×256 图像仅需 10 步,推理速度媲美甚至超越部分扩散模型,可满足视频会议背景生成、实时设计预览等低延迟需求。

此方法为自回归图像生成提供了新理论框架,其核心思想还可扩展至视频生成和3D 对象生成,为实时图像合成应用提供了高效实用的解决方案。

除了生成,AI 对于外部世界的理解也是大模型落地的重要方向。

近年来,在数字化浪潮中,大模型已能娴熟应对软件界面、网页与移动应用等数字场景的交互任务,然而,当交互对象转向现实世界中的空调、洗衣机、烤箱等设备控制面板时,现有技术却陷入了“本领恐慌”。

这些物理面板不仅存在图像模糊、透视畸变、背景复杂等视觉挑战,其占图像面积往往远低于数字界面的完整呈现,且涉及的按钮、旋钮等交互元素功能语义与数字场景差异显著,导致现有模型难以有效理解和操作。

更严峻的是,若将含现实环境的面板图像上传至云端处理,墙面照片、个人物品等敏感信息极易泄露,隐私安全问题成为现实设备智能交互落地的巨大阻碍。

针对这一难题,TeleAI 推出面板理解与操作基准 PUO-Bench,并创新设计隐私保护框架 PPF,为现实世界设备智能交互难题提供了全面解决方案。

PUO-Bench 是首个专注现实面板的大规模数据集,包含超过 1.9 万张图像和 43 万条“指令-回答”对,覆盖多种设备,并定义了面板描述、元素定位、功能推理和多步骤操作规划四大任务,全面评测模型从识别到推理再到操作的能力。

在应用层面,PPF 采用“边缘侧解析+云端推理”的设计。边缘设备上的轻量模型负责检测和解析面板,仅输出文字化的结构化信息;云端大模型则基于这些脱敏数据进行推理并生成答案。该方案既能保护隐私,又能充分发挥大模型的推理优势,为现实落地提供了可行路径。

PPF 的设计理念受到智传网(AI Flow)的启发。它将复杂的图像解析放在边缘端完成,把高阶推理交给云端,从而在算力分配、响应速度与隐私安全之间取得平衡。这种跨层协同不仅让 AI 更贴近实际使用场景,也为未来的智能网络架构提供了新的范式探索。

PUO-Bench 与 PPF 框架的推出,不仅填补了现实世界面板理解与操作领域的研究空白,更搭建了“数字智能”走向“物理智能”的桥梁。

未来,随着动态面板交互场景的拓展与多设备协同数据的补充,这项工作将持续推动人机交互技术向更智能、更安全、更贴近现实需求的方向迈进,为构建高效协同的智能生活与工作场景奠定坚实基础。

相关论文:

Z. Ning et al., "CAS-Spec: Cascade Adaptive Self-Speculative Decoding for On-the-Fly Lossless Inference Acceleration of LLMs", NeurIPS 2025.

Z. Huang et al., "NFIG: Multi-Scale Autoregressive Image Generation via Frequency Ordering", NeurIPS 2025.

W. Lin et al., "PUO-Bench: A Panel Understanding and Operation Benchmark with A Privacy-Preserving Framework", NeurIPS 2025.

来源:TeleAI

相关推荐