AI后训练难题被破解，Meta新方法横空出世，竟能变身“金牌老师”

摘要：2025年，AI领域又有大新闻！Meta超级智能实验室的研究团队，和牛津大学的伙伴们联手搞了个“大动作”：他们想出了一个新办法，让大模型在没人标注数据、没有现成答案的时候，也能自己找到学习的路子。

2025年，AI领域又有大新闻！Meta超级智能实验室的研究团队，和牛津大学的伙伴们联手搞了个“大动作”：他们想出了一个新办法，让大模型在没人标注数据、没有现成答案的时候，也能自己找到学习的路子。

这招叫什么？名字也很有意思，叫 CaT（Compute as Teacher），翻译过来就是“让计算力做老师”。

简单点说，就是让AI自己推理出来的结果，变成自己学习的“金牌教练”。

为了验证新方法，Meta团队拿出了三大热门系列模型来做实验：Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。

实验场景也选得很有代表性，既有难度很高的数学题，也有医疗健康这种“答案没标准”的场景。

实验发现，CaT方法一上手，模型的表现就有明显提升。比如在高难度的MATH-500数学测试里，成绩最高提升了27%；在医疗场景HealthBench上，分数也能提高12%。

而且，研究团队还把CaT和强化学习结合起来，搞出了更强的“CaT-RL”版本，提升幅度更大——有的场景能提高30%以上！

更有意思的是，训练完的模型，综合表现甚至超越了原本的“老师”模型。

这说明，AI自己“琢磨”出来的学习策略，真的能比模仿人类标注更有效果。

说到这里，大家可能还会疑问：那在自由对话、创意写作这些领域，答案本来就没标准，AI怎么知道自己答得好不好？

Meta团队的方法也很实用。

他们让模型自己回头总结一套“评分标准”（Self-proposed rubrics），比如回答要不要有逻辑、内容是不是完整、有没有新意等等。

然后再用大模型（比如GPT-4o）来检查每个答案是否符合这些标准，并给出奖励。

结果很惊喜：这些自拟的评分标准，居然和人类专家的评价效果相差无几，甚至比模型自己“拍脑袋打分”还要准确。

这说明，AI不光能自学，还能自己定“考纲”，确实厉害。

最关键的意义在于，CaT方法把模型的推理能力，变成了可持续的“学习信号”。

这在很多领域都是革命性的创新。比如医疗问诊、自由写作这些没有标准答案的场景，过去AI很难训练出“最优解”，现在只要模型本身推理能力够强，完全可以靠自己不断进步。

有专家评价，这项成果有望推动AI在健康、安全等高难领域实现新突破，也为我国自主研发大模型提供了新思路。

以后，面对那些“考不出标准答案”的问题，AI也能自己找路子解决，效率和能力双提升。

总而言之，Meta团队的CaT方法，不仅是技术创新，更是AI训练思路上的大转变。

未来，随着算力成本持续下降，这种“推理为师”的自监督方法，或许会成为大模型训练的新主流。

对于我国AI产业来说，把握住这种新方向，无疑是提升自主创新能力的重要一步。

来源：3分钟娱记一点号

标签：老师训练 meta 变身金牌

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!