摘要:2025年,AI领域又有大新闻!Meta超级智能实验室的研究团队,和牛津大学的伙伴们联手搞了个“大动作”:他们想出了一个新办法,让大模型在没人标注数据、没有现成答案的时候,也能自己找到学习的路子。
2025年,AI领域又有大新闻!Meta超级智能实验室的研究团队,和牛津大学的伙伴们联手搞了个“大动作”:他们想出了一个新办法,让大模型在没人标注数据、没有现成答案的时候,也能自己找到学习的路子。
这招叫什么?名字也很有意思,叫 CaT(Compute as Teacher),翻译过来就是“让计算力做老师”。
简单点说,就是让AI自己推理出来的结果,变成自己学习的“金牌教练”。
为了验证新方法,Meta团队拿出了三大热门系列模型来做实验:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。
实验场景也选得很有代表性,既有难度很高的数学题,也有医疗健康这种“答案没标准”的场景。
实验发现,CaT方法一上手,模型的表现就有明显提升。比如在高难度的MATH-500数学测试里,成绩最高提升了27%;在医疗场景HealthBench上,分数也能提高12%。
而且,研究团队还把CaT和强化学习结合起来,搞出了更强的“CaT-RL”版本,提升幅度更大——有的场景能提高30%以上!
更有意思的是,训练完的模型,综合表现甚至超越了原本的“老师”模型。
这说明,AI自己“琢磨”出来的学习策略,真的能比模仿人类标注更有效果。
说到这里,大家可能还会疑问:那在自由对话、创意写作这些领域,答案本来就没标准,AI怎么知道自己答得好不好?
Meta团队的方法也很实用。
他们让模型自己回头总结一套“评分标准”(Self-proposed rubrics),比如回答要不要有逻辑、内容是不是完整、有没有新意等等。
然后再用大模型(比如GPT-4o)来检查每个答案是否符合这些标准,并给出奖励。
结果很惊喜:这些自拟的评分标准,居然和人类专家的评价效果相差无几,甚至比模型自己“拍脑袋打分”还要准确。
这说明,AI不光能自学,还能自己定“考纲”,确实厉害。
最关键的意义在于,CaT方法把模型的推理能力,变成了可持续的“学习信号”。
这在很多领域都是革命性的创新。比如医疗问诊、自由写作这些没有标准答案的场景,过去AI很难训练出“最优解”,现在只要模型本身推理能力够强,完全可以靠自己不断进步。
有专家评价,这项成果有望推动AI在健康、安全等高难领域实现新突破,也为我国自主研发大模型提供了新思路。
以后,面对那些“考不出标准答案”的问题,AI也能自己找路子解决,效率和能力双提升。
总而言之,Meta团队的CaT方法,不仅是技术创新,更是AI训练思路上的大转变。
未来,随着算力成本持续下降,这种“推理为师”的自监督方法,或许会成为大模型训练的新主流。
对于我国AI产业来说,把握住这种新方向,无疑是提升自主创新能力的重要一步。
来源:3分钟娱记一点号