突破性模型训练方法:让模型自主思考学习!

B站影视 内地电影 2025-09-28 16:21 1

摘要:奖励机制的设计体现了研究团队对人性化学习的深刻理解。最初,他们采用了严格的奖励标准,要求模型的预测必须与标准答案在语义上完全一致。但这种做法就像过分苛刻的考试评分标准,会抑制学生的创造性表达。经过改进,他们采用了更加灵活的"前缀奖励"机制,只要模型的预测能够合

腾讯联合港中大提出RLPT方法,通过强化学习让AI从预训练数据中自主推理学习,无需人工标注即可显著提升模型在数学推理、常识问答等任务上的表现,为大语言模型训练开辟了全新范式。奖励机制的设计体现了研究团队对人性化学习的深刻理解。最初,他们采用了严格的奖励标准,要求模型的预测必须与标准答案在语义上完全一致。但这种做法就像过分苛刻的考试评分标准,会抑制学生的创造性表达。经过改进,他们采用了更加灵活的"前缀奖励"机制,只要模型的预测能够合理地延续原文思路,就能获得正面反馈。这种改变不仅提升了训练效果,也让模型学会了生成更长、更连贯的内容。在计算资源的配置上,研究团队采用了精心优化的训练参数。他们使用批处理大小为512,最大响应长度为8192个字符,采样温度设为1.0以保持适当的随机性。优化算法选择了GRPO(Group Relative Policy Optimization),这是一种专门为强化学习设计的高效算法。整个训练过程不使用传统的KL散度正则化,这使得模型能够更自由地探索不同的表达方式。至顶AI实验室洞见腾讯团队的RLPT研究核心的技术创新在于,能够让AI模型直接从海量的原始网络文本中自主学习和推理,而无需耗时且昂贵的人工标注。说明未来可能AI训练成本会显著降低而效率大幅提升,AI模型训练将变得更加普及化,不再是大型科技公司的专属,小型团队和初创公司也能以低成本构建出高质量的模型。RLPT的价值不只在于模型训练。在教育领域,它强调的自主探索和推理思维与现代教育理念中的批判性思维培养不谋而合,未来的AI助手有望成为能够引导人们深度思考、解决复杂问题的学习伙伴。在科学研究中,经RLPT训练的模型所展现出的强大推理能力,为自动化科学发现提供了新工具,能从海量文献中发现新规律,为科研人员提供灵感。RLPT当前仍面临诸多挑战。生成式奖励模型在处理主观或多样性答案时仍有偏差,计算效率的优化也亟待解决。此外,训练效果受初始模型质量和数据分布的影响,这需要更精细的参数调整和理论分析。未来,研究将探索更精细的文本分段策略,并寻求RLPT与其他先进技术的结合,甚至将其扩展至多模态学习,让AI能够从图像、音频等多种数据源中自主推理学习。AI不再是被动的信息处理工具,而是能够主动思考、自主学习的智能。它们像永不疲倦的学习者,不断探索成长。RLPT开启了一扇通向更高级AI的大门,让我们离实现AGI的目标又近了一步。END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。Q&AQ1:什么是腾讯混元RLPT方法?A:RLPT(Reinforcement Learning on Pre-Training Data)是一种通过强化学习优化大语言模型的新训练范式。它通过让模型自主探索预训练数据中的推理轨迹来提升能力,无需依赖人工标注的奖励信号。其核心是“下一段推理目标”,即模型通过预测后续文本来获得奖励。实验表明,RLPT在多个基准测试中显著提升了模型性能。Q2:RLPT如何从预训练数据中获取奖励?A:RLPT通过“下一段推理”目标生成自监督奖励,具体包括两种任务:自回归段推理(ASR)和中间段推理(MSR)。ASR要求模型根据上文预测完整下一句,MSR则需利用上下文填充掩码部分。奖励由生成式奖励模型评估预测段与真实段的语义一致性,无需人工干预。Q3:RLPT在哪些任务上表现突出?A:RLPT在通用领域和数学推理任务上均带来显著提升。例如,在Qwen3-4B-Base模型上,MMLU、MMLU-Pro、GPQA-Diamond和AIME24等基准的准确率分别绝对提升3.0、5.1、8.1和6.6。同时,RLPT为后续RLVR训练提供了更强基础,进一步扩展了模型的推理边界。原标题:《腾讯突破性模型训练方法RLPT:让模型自主思考学习!》

来源:博文教育

相关推荐