摘要:近期,昆仑万维 Skywork 另五篇论文被机器学习领域国际顶级会议 NeurIPS 2025 录用,覆盖强化学习、智能体、奖励模型等核心方向,充分展现了昆仑万维 Skywork 团队在人工智能领域的系统性技术突破。
近期,昆仑万维 Skywork 另五篇论文被机器学习领域国际顶级会议 NeurIPS 2025 录用,覆盖强化学习、智能体、奖励模型等核心方向,充分展现了昆仑万维 Skywork 团队在人工智能领域的系统性技术突破。
01
Incentivizing LLMs to self-verify their answers.
该论文针对 LLM 推理准确性问题,提出激励 LLM 自行验证答案正确性的创新方法,打破对外部奖励模型的依赖。
现有 LLM 推理优化方案多依赖外部奖励模型对推理过程进行引导和修正,这种模式存在两大局限:一是外部模型与 LLM 的适配性难以保证,易出现优化偏差;二是额外模型增加了系统复杂度和计算成本。
该论文的核心创新是统一答案生成与验证过程,通过强化学习直接训练 LLM,使其在生成答案的同时具备自我验证能力——模型会主动检查推理逻辑的连贯性、计算步骤的正确性,并根据验证结果调整输出。
实验重点验证了数学推理任务,结果显示该方法不仅大幅提升了 LLM 在数学计算、逻辑推导等任务中的准确率,还具备 “推理扩展能力”:在训练未覆盖的新类型推理问题中,模型仍能通过自我验证机制保障答案可靠性,且全程无需额外验证器参与,简化了 LLM 推理系统的架构。
02
Group-in-group policy optimization for LLM agent training.
该论文提出Group-in-Group Policy Optimization(GiGPO)的强化学习算法,专门用于提升 LLM 智能体在多轮任务中的决策能力。
传统 LLM 智能体训练常面临 “粗粒度优化” 问题,难以精准匹配多轮任务中不同阶段的决策需求,导致模型在复杂场景下表现不稳定。
GiGPO 的突破在于引入轨迹级与步骤级双层优势估计:轨迹级优势估计从整体任务流程出发,评估完整决策序列的有效性,确保模型决策符合任务最终目标;步骤级优势估计则聚焦每一个决策步骤,对单一步骤的价值进行精细计算,修正局部决策偏差。
这种双层优化机制无需额外引入新模型或增加计算开销,实现了 “简单高效” 的训练目标。在 ALFWorld(交互式环境任务)、WebShop(电商模拟任务)和 Search(信息检索任务)三大基准测试中,采用 GiGPO 训练的 LLM 智能体显著超越现有最优方法,证明其在多轮决策场景中的通用性与优越性。
03
OPHR: Mastering volatility trading with multi-agent deep reinforcement learning.
该论文聚焦金融领域痛点,提出首个专门用于期权波动率交易的强化学习系统——OPHR 框架,以多智能体协作模式实现波动率交易的风险控制与收益最大化。
期权波动率交易的核心挑战在于 “双重动态平衡”:既要精准判断波动率走势以确定交易头寸,又要实时管理市场波动带来的风险。OPHR 框架通过双智能体架构解决这一问题:
期权头寸智能体(OP-Agent):专注于 “波动率择时”,通过分析市场数据、历史波动规律,动态决定做多或做空波动率的头寸规模,确保在波动率变化中捕捉收益机会;
对冲路由智能体(HR-Agent):负责 “风险与收益平衡”,通过选择不同风险偏好的对冲策略(如保守型、平衡型、进取型),对冲 OP-Agent 头寸带来的潜在风险,同时最大化整体收益。
在 2021-2024 年加密货币期权市场的真实数据(BTC、ETH 期权)测试中,OPHR 框架在收益率、夏普比率、最大回撤等核心收益与风险指标上,均显著优于传统交易策略(如均线策略、波动率套利策略)和基于预测的机器学习基线模型,证明其在金融实际场景中的应用价值。
04
Establishing linear surrogate regret bounds for convex smooth losses via convolutional Fenchel–Young losses.
该论文被NeurIPS 2025选为spotlight论文,其从机器学习理论层面发力,提出卷积 Fenchel–Young 损失(Conv-FY)框架,为凸光滑损失的一致学习提供统一理论基础。
在机器学习模型训练中,凸光滑损失函数广泛应用于分类、回归等任务,但传统损失函数的 “代理遗憾界”(衡量模型泛化误差的关键指标)多为非线性,难以精准分析模型学习效率与泛化能力的关系。
Conv-FY 框架的核心贡献是系统建立了光滑凸损失的线性代理遗憾界:通过卷积运算对 Fenchel–Young 损失进行扩展,将复杂的非线性遗憾界转化为线性形式,使模型泛化误差的分析更简洁、更精准。
该框架不仅从理论上 “统一并推广了多类分类等任务的可一致学习条件”,还揭示了 “凸性与光滑性在高效一致学习中的内在联系”—— 凸性保障损失函数的优化稳定性,光滑性提升模型学习效率,两者的协同作用是实现高效一致学习的关键。在图像分类、文本情感分析等多个任务的实验中,基于 Conv-FY 框架的模型在泛化能力和训练效率上均有显著提升,验证了理论的实践价值。
05
Improving reward models with proximal policy exploration for preference-based reinforcement learning.
该论文提出Proximal Policy Exploration(PPE)算法,解决偏好数据缓冲区覆盖范围有限导致的奖励模型泛化能力不足问题。
偏好强化学习中,奖励模型的性能高度依赖偏好数据的质量与覆盖范围。传统方法因偏好数据缓冲区仅包含有限场景的样本,导致奖励模型在未覆盖场景中评估偏差大,进而影响策略性能。PPE 算法通过两大核心模块突破这一局限:
近端策略扩展模块:在现有策略的邻近区域主动探索新场景,生成高质量偏好数据,扩展数据缓冲区的覆盖范围 —— 既保证新数据与现有策略的兼容性,又避免探索过程中的策略震荡;
混合分布查询模块:平衡 “策略邻近区域数据” 与 “分布外数据” 的比例,在补充新场景样本的同时,不忽视现有数据的价值,确保奖励模型在熟悉场景和陌生场景中均能精准评估。
实验聚焦连续控制任务(如机械臂运动控制、自动驾驶路径规划),结果显示 PPE 算法显著提升了奖励模型的评估可靠性,同时提高了反馈利用效率——相同偏好数据量下,基于 PPE 的策略性能远超传统方法,证明其在偏好强化学习场景中的实用性。
来源:新浪财经