7 亿参数“递归小模型”一夜封神可能在中国工厂最先落地

B站影视 欧美电影 2025-10-13 08:10 1

摘要:当大家还在卷 100B、1000B 的时候,三星蒙特利尔研究院把“大模型”三个字直接拍扁——两层 Transformer、7.3×10⁷ 参数,循环 16 圈,就把 ARC-AGI-1 榜单拉到 45%,比 6710 亿参数的 DeepSeek-R1 高出近

【导语】

当大家还在卷 100B、1000B 的时候,三星蒙特利尔研究院把“大模型”三个字直接拍扁——两层 Transformer、7.3×10⁷ 参数,循环 16 圈,就把 ARC-AGI-1 榜单拉到 45%,比 6710 亿参数的 DeepSeek-R1 高出近 30 个百分点。消息 10 月 9 日一出,国内服务器厂商先炸锅:原来不是算力不够,是“思考姿势”不对?更尴尬的是,TRM 的核心训练代码只有 1.2 MB,一张 RTX 4090 24 h 就能复现。本文带你拆这台“小钢炮”——为什么它能以小博大,中国团队谁在做同款,以及它为什么可能最先出现在深圳 SMT 贴片厂的质检机里,而不是云厂商的 GPU 池。

一、榜单惊魂 45%:小模型把“巨无霸”按在地上摩擦

1. ARC-AGI 是什么?

- 由 Keras 之父 François Chollet 发起,专测“人类级抽象推理”,题目类似 IQ 图形测试,对语言模型极不友好。

- 2024 年起分两条赛道:ARC-1(公开训练集)和 ARC-2(纯私榜,目标 85%)。目前闭榜最高仍是 Grok-4 的 79.6%,但那是 20 次尝试+人工调 Prompt 的结果。

2. TRM 成绩单(官方两试)

- ARC-1:45.0%|ARC-2:8.0%

- 作为对比:

– DeepSeek-R1(671 B):15.8% / 1.3%

– Gemini-2.5 Pro:37.0% / 4.9%

– o3-mini-high:34.5% / 3.0%

参数差距 90~10000 倍,性能却倒挂,舆论瞬间爆炸。

二、拆机:三层“递归”嵌套,让模型自己当自己的老师

TRM 把传统“一次吐答案”改成“草稿→检查→再改”,核心循环仅三步:

1. Think:用 2 层 Transformer 同时接收题目 x、当前答案 y 和隐藏草稿 z,输出新草稿 z';

2. Act:再用同一套参数把 z' 与 y 融合,输出修正后的 y';

3. 把 (y', z') 喂回自己,最多 16 圈,训练时每圈都给监督信号,推理时一口气跑到底。

关键技巧

- 深度监督:16 圈每圈都算交叉熵损失,避免“最后一圈背锅”;

- 可学习停掉头:训练时学一个概率门,推理时固定展开,省掉动态停掉的搜索成本;

- 全循环反向传播:不像 HRM 用隐式梯度近似,TRM 把 16 圈当一张“大计算图”端到端求导,泛化误差大幅下降。

一句话:参数只负责“思维模板”,推理时靠“时间换空间”,把 2 层物理深度活生生拉成 32~96 层“虚拟深度”。

三、中国玩家地图:谁在做“小参数+大循环”

1. 清华 TSAIL:Rationale-Net V2

- 10 月 6 日挂 arXiv,9.8 M 参数,循环 12 圈,ARC-1 42.7%,代码已开源。

- 与 TRM 最大差异:引入“自洽值函数”做早停,平均推理步数降到 9.3 圈,速度×1.7。

2. 阿里达摩院:TinyReasoner

- 内部项目,8.5 M 参数,中文 ARC-C 榜 38.4%(中文抽象推理更难)。

- 亮点:把循环草稿蒸馏到 0.8 B 的 Qwen2-0.5B 上,让小模型也能“一步作答”,方便端侧部署。

3. 华为诺亚:MiniCube-7B

- 别被名字骗了,7B 只是教师模型,学生模型 17 M,循环 20 圈,重点做多模态图形推理,计划 2026 年装进昇腾 310B,做无人质检。

4. 深圳思谋科技:已把“循环小模型”塞进 LCD 缺陷检测

- 产线节拍 0.8 s/片,用 11 M 参数 U-Net+4 圈 TRM 解码,把漏检率从 120 ppm 降到 9 ppm,单卡 RTX A2000 搞定,比原来大模型方案省电 63%。

四、为什么工厂比云厂商更欢迎 TRM?

- 时延低:16 圈循环在 8 核 ARM 上 120 ms 跑完,云侧大模型一次前向也要 800 ms;

- 能耗低:7 M 模型全部进 L2 Cache,峰值功耗 6 W,而 70 B 模型单卡 300 W 起步;

- 保密性强:小模型+小数据可完全离线,客户不愿把缺陷样本上传云端;

- 迭代快:工厂每天产生新缺陷,TRM 一晚就能重训完,第二天直接上线。

五、冷思考:TRM 不是万能药

1. 语言任务拉胯:在 GSM-8K 数学只有 18.9%,远低于 DeepSeek-R1 的 88%,循环架构对“长文本依赖”依旧无力;

2. 推理步数=推理成本:16 圈意味着 16 倍算力,如果放到云端大并发,总 FLOPs 优势不再;

3. 泛化边界仍模糊:ARC 是封闭数据集,TRM 在真实业务 OOD 场景会不会“循环塌陷”仍需观察;

4. 硬件适配:国内大部分 MCU 只有 512 KB SRAM,7 M 模型需 28 MB,还需再蒸馏或量化。

六、下一步:把“循环”烧进芯片

三星已在规划 TRM-X 版本:

- 28 nm 制程,嵌入式 8 MB SRAM,256 个 4-bit 乘加单元;

- 单芯片跑 16 圈只需 12 mJ,比 RTX 4090 省 4000×;

- 目标 2026 Q2 出样,首站就是西安三星 NAND 工厂的 AOI 光学检查机。

国内也有对标:

- 清微智能 11 月即将流片 TSR-RR,支持 1~64 圈可配置递归,峰值算力 4 TOPS@INT4;

- 比特大陆第三代 AI 芯片 BM1688 将集成“动态递归单元”,对外宣称 24 小时内可完成 TRM 训练。

结语:

TRM 的出圈,再次印证“尺度定律”不是唯一解——当参数膨胀遇到边际递减,循环结构把“测试时计算”推向台前。对国产大模型而言,与其继续堆 1000 B 的“巨无霸”,不如先学会“让子弹飞一会儿”——让模型自己多改几遍答案。更值得期待的是,当这类“小钢炮”在工厂、手机、车载终端遍地开花,AI 的落地口径将从“云端神话”转向“硅屑革命”。毕竟,能塞进工人裤兜里的智能,才是真正的智能。

—— 至于 ARC-AGI-2 那 85% 的终极门槛?也许下一次刷新榜单的,就是深圳某家工厂夜里 3 点训练出的 5 M“小怪物”。

来源:智能学院

相关推荐