百万训练费白花了,AI靠自己推理,医疗能力能提升30%?

B站影视 港台电影 2025-09-23 15:58 1

摘要:先说说现状有多糟,传统的AI训练就像请家教,需要大量标准答案来"手把手"教模型。

很多人疑惑,为什么训练一个医疗AI需要烧掉上百万预算?

答案简单,请医生写标签太贵了,

但如果我告诉你,现在一台A100跑一周就能搞定,你信吗?

这就是Meta超级智能实验室最新甩出的王炸,CaT技术,

这个投入数十亿美元的实验室,颠覆的是整个AI训练的游戏规则。

先说说现状有多糟,传统的AI训练就像请家教,需要大量标准答案来"手把手"教模型。

想训练一个医疗AI?得请一堆医生写标签,动辄几百万成本,

想让AI学会创意写作?谁来定义什么叫"好文章"?

很多任务压根就没有标准答案,比如心理咨询,同一个问题可能有十种正确回答方式,

传统的监督学习在这种场景下完全懵圈。

Meta超级智能实验室的研究人员发现了这个痛点,

提出了一个看似疯狂的想法:既然找不到老师,那就让AI自己给自己当老师!

CaT的全称是"Compute as Teacher",翻译过来就是"计算作为教师",

听起来很玄?其实原理挺简单的。

想象一下这个场景,你遇到一道难题,没有标准答案,怎么办?

最聪明的做法是什么?多想几种解法,然后综合一下,得出一个最靠谱的答案。

CaT就是这么干的

第一步:头脑风暴阶段

让当前的AI模型针对同一个问题,一口气生成十几种不同的解答思路,就像开头脑风暴会议一样。

第二步:老师总结阶段

找一个"冻结"的老模型当班主任,把这些草稿汇总整理,合成一份参考答案,

注意,这个老师模型是固定的,不会被学生带偏。

第三步:对照改进阶段

让学生模型对照这份参考答案,不断调整优化自己的表现,

整个过程最妙的地方在于角色分离:学生负责探索创新,老师负责稳定把关,

这样既保证了学习的多样性,又避免了错误放大,

别光听理论,看看实战数据就知道有多厉害了。

Meta的研究团队在多个模型上做了测试,包括Gemma 3 4B、Qwen 3 4B和Llama 3.1 8B,

结果相当震撼

数学推理能力暴涨:在MATH-500这个高难度数学推理测试中,CaT技术让模型表现提升了27%,

要知道,数学推理一直是AI的老大难问题。

医疗诊断更精准:在HealthBench医疗测试中,提升幅度达到12%,

这可不是闹着玩的,医疗AI的每一分提升都可能救命。

小模型追上大模型:最让人震惊的是,经过CaT训练的4B小模型,性能竟然能追上比自己大五倍的对手

成果就是——成本大幅降低,部署更容易。

CaT还有个更厉害的绝招,那就是自拟评分标准

传统方法里,谁来判断AI的回答好不好?要么人工评判,要么用简单的对错判断

但很多任务哪有标准答案?

CaT的解决方案很巧妙:让AI先给自己制定评分规则,然后用GPT-4o来做二选一判断,

举个例子,AI要回答一个医疗咨询问题,

它会先分析:"好的医疗建议应该包含症状分析、风险评估、就医建议等要素。"

然后按这个标准来评判自己的表现,

结果显示,这种自拟标准的效果竟然和人类专家标注相媲美,成本却几乎为零。

技术再牛,不能落地就是纸上谈兵,好消息是,CaT已经在多个实际场景中展现了惊人价值,

自动驾驶领域的突破:Waymo的前工程师在推特上分享,他们用CaT生成极端路况的决策路径,

让老模型挑最优解,直接省掉30万英里的实车测试,这省下的不只是钱,更是宝贵的时间,

机器人控制的飞跃:Meta正在积极建设大规模数据中心园区和电力基础设施,

最新内部数据显示,机器人叠衣服的成功率从61%干到了84%。

也就是说家用机器人很可能提前两年进入普通家庭。

医疗AI的零成本训练:过去训练一个医疗AI,光请医生写标签就要烧掉百万预算,

现在一台A100跑一周,数据闭环自己转,小团队终于有机会和大厂拼模型质量了。

挑战与风险

当然,CaT也不是十全十美,

最大的风险来自"偏见传递"——如果作为老师的模型本身有偏见,会把问题传给学生。

CMU的一篇预印本研究建议,每训练三轮就换一批冻结教师,成本只增加不到5%,但风险能大幅降低。

这个建议很有道理。

另一个挑战是"奖励hacking"——模型可能为了获得高分而生成一些看起来正确,

但实际无意义的内容,Meta通过引入"自我质量奖励"机制来缓解这个问题。

未来已来

来源:靳律法谈

相关推荐