摘要:据相关机构测算,2023年我国数据标注产业规模已达800亿元规模,但即便如此庞大的投入,仍然无法满足AI发展的胃口,很多AI公司都在这个问题上栽了跟头。
一个让整个AI行业头疼的问题,被Meta的科学家们用一招"四两拨千斤"给解决了。
当所有人都在为数据标注成本飙升、人工监督难以为继而焦虑时,Meta超级智能实验室悄然丢出一颗重磅炸弹。
这次,他们让AI学会了"自己教自己",而背后的技术突破,可能彻底改写整个行业的游戏规则。
要理解这次突破有多重要,得先说说AI训练现在面临的困境,训练一个领先的大模型,需要数百万甚至数千万条标注数据。
而每条高质量标注数据的成本高达2-5美元,ChatGPT训练过程中使用的人类反馈数据集成本估计超过700万美元。
更要命的是,Epoch AI的研究估计,到2028年,AI训练数据很可能耗尽,这意味着什么?就像建房子没有砖头,再先进的AI架构也无法进步。
特别是在医疗诊断、创意写作这些"不可验证"的领域,根本没有标准答案,传统的监督学习方法彻底失效。
据相关机构测算,2023年我国数据标注产业规模已达800亿元规模,但即便如此庞大的投入,仍然无法满足AI发展的胃口,很多AI公司都在这个问题上栽了跟头。
就在所有人一筹莫展的时候,Meta超级智能实验室推出了CaT(Compute as Teacher)方法,这个方法的核心思想简单到让人拍案叫绝:既然缺乏监督信号,那就让AI用自己的推理能力来生成监督信号。
具体怎么操作?CaT让AI模型先生成一堆并行的解答,然后用一个"锚点模型"把这些解答整合成一个高质量的参考答案。
就像让一群学生先各自答题,然后老师综合所有答案给出标准答案,再用这个标准答案来指导学习。
在CaT中,模型自我合成现有的GRPO推理结果,调和分歧、部分解决方案和事实,这种方法巧妙地把原本用于强化学习的计算资源,转化成了监督学习的教师信号。
实验结果让人眼前一亮。,在非可验证领域(HealthBench)上,CaT在3个模型家族中实现了高达30%的改进,在数学推理任务MATH-500上,最高提升达到27%,要知道,这些提升是在没有任何额外人工标注的情况下实现的。
更神奇的是,结合强化学习的CaT-RL版本表现更优秀,甚至能够超越初始的教师信号,这就像学生不仅学会了老师的知识,还青出于蓝而胜于蓝。
对于不可验证的任务,CaT还开发了"自拟评分标准"机制。模型会先生成一个评估标准清单,然后用GPT-4o来判断答案是否符合这些标准,这种方法在效果上甚至能与人类专家标注相媲美。
Meta CEO扎克伯格已经从OpenAI、Google和Anthropic挖走了大批顶级AI专家,创建Meta超级智能实验室,典型的薪酬包高达4年2亿美元,这比顶级运动员的薪水还要夸张。
Meta正在俄亥俄州建设代号为"Prometheus"的超大规模训练集群,甚至使用帐篷来加速数据中心建设,这种"不惜一切代价"的投入,正是为了在AI竞赛中占据制高点。
CaT方法的出现,可能标志着AI训练进入了一个全新阶段,不再依赖昂贵的人工标注,不再受限于数据稀缺,AI真正开始了"自我进化"的征程。
从技术发展趋势看,2024年强化学习领域取得了显著进展,样本效率显著提高,探索机制更加智能化,CaT正是站在这些技术积累之上的又一次飞跃。
对中国AI产业来说,这个突破有着特殊意义,当前全球主流基础大模型,中文语料仅占全部语料的1%,高质量中文数据成为制约我国基础大模型能力的瓶颈,CaT方法提供了一种摆脱数据依赖的新路径。
国家四部门刚刚发布政策,提出数据标注产业年均复合增长率要超过20%,但CaT的出现表明,未来的竞争可能不再是谁的数据更多,而是谁的AI更会"自学"。
Meta的CaT方法不只是一个技术突破,更像是打开了AI发展的一扇新大门,当AI学会自己教自己,人类在这个过程中的角色也在悄然转变。
未来的AI竞争,比拼的将是算法的智慧,而不是数据的多寡,这场变革才刚刚开始,但已经足够让整个行业为之震撼。
信源:
论文地址:https://arxiv.org/pdf/2509.14234
论文标题:Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
来源:聆听娱纪一点号