摘要:2025年5月22日下午,YEF2025“强化学习如何重塑大模型推理格局?”专题论坛在珠海横琴湾会议中心510会议室成功举办。该专题论坛由CCF主办,CCF YOCSEF太原分论坛承办,山西大学计算机与信息技术学院协办,汴水之畔超级计算中心赞助,CCF杰出会员
2025年5月22日下午,YEF2025“强化学习如何重塑大模型推理格局?”专题论坛在珠海横琴湾会议中心510会议室成功举办。该专题论坛由CCF主办,CCF YOCSEF太原分论坛承办,山西大学计算机与信息技术学院协办,汴水之畔超级计算中心赞助,CCF杰出会员、山西大学魏巍教授担任论坛主席。论坛邀请了来自清华大学、天津大学、复旦大学等高校的专家学者,围绕强化学习与大模型推理的深度融合展开前沿探讨,聚焦技术突破、应用场景与未来趋势,为大模型发展注入新动能。
论坛首先由魏巍教授介绍背景。他指出,当前强化学习与大模型的深度融合正在重塑大模型推理格局,其技术突破已为复杂推理、多模态生成及人机交互等前沿领域注入发展新动能。然而,技术突破始终面临高计算成本、策略优化困难及训练不稳定等核心难题,这些已成为制约该技术在大模型推理领域应用的主要瓶颈。本次论坛聚焦“强化学习如何重塑大模型推理格局”前沿议题,汇聚顶尖专家深入探讨技术演进路径。通过思想碰撞与经验分享,推动强化学习与大模型推理的深度融合,为人工智能发展注入创新动能。
CCF 杰出会员、山西大学魏巍教授主持
在报告环节,清华大学兴军亮研究员带来了题为《人机交互式学习:面向混合智能的强化学习新范式》的特邀报告。他首先剖析了推理型大模型高速发展带来的机遇与挑战,随后阐述了人机混合智能这一新兴形态的研究框架,重点介绍了面向该领域的强化学习新范式——人机交互式学习,并最终分享了其研究团队在此方向的最新研究成果。
清华大学兴军亮研究员作《人机交互式学习:面向混合智能的强化学习新范式》特邀报告
魏巍教授为兴军亮研究员颁发感谢牌
华为-诺亚方舟决策推理实验室李栋博士代天津大学郝建业教授作题为《大模型时代下的强化学习》的特邀报告。他首先概述了传统强化学习的背景与基础,随后阐述了大模型时代下新的决策模型学习范式,分析了强化学习如何助力决策模型及其面临的挑战与解决方案,最后分享了具身智能和Agent方向的最新进展。
李栋博士代天津大学郝建业教授作《大模型时代下的强化学习》特邀报告
魏巍教授为李栋博士颁发感谢牌
清华大学东昱晓副教授作了《Advancing LLM Reasoning through RL and Inference Scaling》特邀报告。他在报告中详细介绍了深度推理模型T1,其首创的“集成试错-自我验证”双机制,显著提升了大模型在数学推理等复杂任务中的性能;研发的WebRL在线强化学习框架已成功应用于AutoGLM智能体系统,为智能体产品研发提供新范式。
清华大学东昱晓副教授作《Advancing LLM Reasoning through RL and Inference Scaling》特邀报告
魏巍教授为东昱晓副教授颁发感谢牌
复旦大学魏忠钰副教授作了题为《Grounded Visual Reasoning in LMMs: Methods and Application》的特邀报告。他在报告中针对混合模态推理场景中数据稀缺、泛化能力弱等挑战,分享了团队构建的视觉文本混合推理链技术。该技术通过动态定位关键视觉区域并融合多模态语义,能够显著提升模型在复杂场景下的推理精度。同时,团队提出的类R1强化学习方法突破了传统数据依赖瓶颈,使大模型在开放环境中实现自适应迭代优化。
复旦大学魏忠钰副教授作《Grounded Visual Reasoning in LMMs: Methods and Application》特邀报告
魏巍教授为魏忠钰副教授颁发感谢牌
上海交通大学陈思衡副教授作了题为《群体智能——终极AGI》的特邀报告。他介绍了团队首创的多智能体社会模拟器MATRIX,该模拟器仅用2万条合成数据即让Llama-3-8B-Base性能超越Meta千万级指令微调版本,突破了多智能体协同进化关键技术;此外,团队提出的文本反向传播驱动的EvoMAC自进化范式,实现了项目级软件开发能力的持续升级。
上海交通大学陈思衡副教授作《群体智能——终极AGI》特邀报告
魏巍教授为陈思衡副教授颁发感谢牌
在论坛的PANEL讨论环节,邀请了中国人民大学陈旭副教授与多位与会嘉宾,围绕“大模型推理与人类推理的区别”以及“强化学习能否拓展大模型推理边界”等核心议题展开深入探讨。与会专家各抒己见,分享了诸多精彩观点,为相关领域研究拓展了新思路。
Panel环节
嘉宾思辨并与现场听众交流
与会人员合影
本次论坛历时四个小时,魏巍教授对本次论坛进行了总结。通过此次论坛,听众对强化学习的未来发展产生了许多新的认识,也对强化学习未来如何赋能大模型的推理发展路径也更加清晰。最后,论坛在一片热烈的氛围中圆满结束。
来源:CCFvoice