AI后训练难题被破解,Meta新方法横空出世,竟能变身“金牌老师”

B站影视 港台电影 2025-09-23 11:26 1

摘要:2025年,AI领域又有大新闻!Meta超级智能实验室的研究团队,和牛津大学的伙伴们联手搞了个“大动作”:他们想出了一个新办法,让大模型在没人标注数据、没有现成答案的时候,也能自己找到学习的路子。

2025年,AI领域又有大新闻!Meta超级智能实验室的研究团队,和牛津大学的伙伴们联手搞了个“大动作”:他们想出了一个新办法,让大模型在没人标注数据、没有现成答案的时候,也能自己找到学习的路子。

这招叫什么?名字也很有意思,叫 CaT(Compute as Teacher),翻译过来就是“让计算力做老师”。

简单点说,就是让AI自己推理出来的结果,变成自己学习的“金牌教练”

为了验证新方法,Meta团队拿出了三大热门系列模型来做实验:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B

实验场景也选得很有代表性,既有难度很高的数学题,也有医疗健康这种“答案没标准”的场景。

实验发现,CaT方法一上手,模型的表现就有明显提升。比如在高难度的MATH-500数学测试里,成绩最高提升了27%;在医疗场景HealthBench上,分数也能提高12%。

而且,研究团队还把CaT和强化学习结合起来,搞出了更强的“CaT-RL”版本,提升幅度更大——有的场景能提高30%以上!

更有意思的是,训练完的模型,综合表现甚至超越了原本的“老师”模型

这说明,AI自己“琢磨”出来的学习策略,真的能比模仿人类标注更有效果。

说到这里,大家可能还会疑问:那在自由对话、创意写作这些领域,答案本来就没标准,AI怎么知道自己答得好不好?

Meta团队的方法也很实用。

他们让模型自己回头总结一套“评分标准”(Self-proposed rubrics),比如回答要不要有逻辑、内容是不是完整、有没有新意等等。

然后再用大模型(比如GPT-4o)来检查每个答案是否符合这些标准,并给出奖励。

结果很惊喜:这些自拟的评分标准,居然和人类专家的评价效果相差无几,甚至比模型自己“拍脑袋打分”还要准确

这说明,AI不光能自学,还能自己定“考纲”,确实厉害。

最关键的意义在于,CaT方法把模型的推理能力,变成了可持续的“学习信号”

这在很多领域都是革命性的创新。比如医疗问诊、自由写作这些没有标准答案的场景,过去AI很难训练出“最优解”,现在只要模型本身推理能力够强,完全可以靠自己不断进步。

有专家评价,这项成果有望推动AI在健康、安全等高难领域实现新突破,也为我国自主研发大模型提供了新思路。

以后,面对那些“考不出标准答案”的问题,AI也能自己找路子解决,效率和能力双提升。

总而言之,Meta团队的CaT方法,不仅是技术创新,更是AI训练思路上的大转变

未来,随着算力成本持续下降,这种“推理为师”的自监督方法,或许会成为大模型训练的新主流。

对于我国AI产业来说,把握住这种新方向,无疑是提升自主创新能力的重要一步。

来源:3分钟娱记一点号

相关推荐