摘要:当大家还在卷 100B、1000B 的时候,三星蒙特利尔研究院把“大模型”三个字直接拍扁——两层 Transformer、7.3×10⁷ 参数,循环 16 圈,就把 ARC-AGI-1 榜单拉到 45%,比 6710 亿参数的 DeepSeek-R1 高出近
【导语】
当大家还在卷 100B、1000B 的时候,三星蒙特利尔研究院把“大模型”三个字直接拍扁——两层 Transformer、7.3×10⁷ 参数,循环 16 圈,就把 ARC-AGI-1 榜单拉到 45%,比 6710 亿参数的 DeepSeek-R1 高出近 30 个百分点。消息 10 月 9 日一出,国内服务器厂商先炸锅:原来不是算力不够,是“思考姿势”不对?更尴尬的是,TRM 的核心训练代码只有 1.2 MB,一张 RTX 4090 24 h 就能复现。本文带你拆这台“小钢炮”——为什么它能以小博大,中国团队谁在做同款,以及它为什么可能最先出现在深圳 SMT 贴片厂的质检机里,而不是云厂商的 GPU 池。
一、榜单惊魂 45%:小模型把“巨无霸”按在地上摩擦
1. ARC-AGI 是什么?
- 由 Keras 之父 François Chollet 发起,专测“人类级抽象推理”,题目类似 IQ 图形测试,对语言模型极不友好。
- 2024 年起分两条赛道:ARC-1(公开训练集)和 ARC-2(纯私榜,目标 85%)。目前闭榜最高仍是 Grok-4 的 79.6%,但那是 20 次尝试+人工调 Prompt 的结果。
2. TRM 成绩单(官方两试)
- ARC-1:45.0%|ARC-2:8.0%
- 作为对比:
– DeepSeek-R1(671 B):15.8% / 1.3%
– Gemini-2.5 Pro:37.0% / 4.9%
– o3-mini-high:34.5% / 3.0%
参数差距 90~10000 倍,性能却倒挂,舆论瞬间爆炸。
二、拆机:三层“递归”嵌套,让模型自己当自己的老师
TRM 把传统“一次吐答案”改成“草稿→检查→再改”,核心循环仅三步:
1. Think:用 2 层 Transformer 同时接收题目 x、当前答案 y 和隐藏草稿 z,输出新草稿 z';
2. Act:再用同一套参数把 z' 与 y 融合,输出修正后的 y';
3. 把 (y', z') 喂回自己,最多 16 圈,训练时每圈都给监督信号,推理时一口气跑到底。
关键技巧
- 深度监督:16 圈每圈都算交叉熵损失,避免“最后一圈背锅”;
- 可学习停掉头:训练时学一个概率门,推理时固定展开,省掉动态停掉的搜索成本;
- 全循环反向传播:不像 HRM 用隐式梯度近似,TRM 把 16 圈当一张“大计算图”端到端求导,泛化误差大幅下降。
一句话:参数只负责“思维模板”,推理时靠“时间换空间”,把 2 层物理深度活生生拉成 32~96 层“虚拟深度”。
三、中国玩家地图:谁在做“小参数+大循环”
1. 清华 TSAIL:Rationale-Net V2
- 10 月 6 日挂 arXiv,9.8 M 参数,循环 12 圈,ARC-1 42.7%,代码已开源。
- 与 TRM 最大差异:引入“自洽值函数”做早停,平均推理步数降到 9.3 圈,速度×1.7。
2. 阿里达摩院:TinyReasoner
- 内部项目,8.5 M 参数,中文 ARC-C 榜 38.4%(中文抽象推理更难)。
- 亮点:把循环草稿蒸馏到 0.8 B 的 Qwen2-0.5B 上,让小模型也能“一步作答”,方便端侧部署。
3. 华为诺亚:MiniCube-7B
- 别被名字骗了,7B 只是教师模型,学生模型 17 M,循环 20 圈,重点做多模态图形推理,计划 2026 年装进昇腾 310B,做无人质检。
4. 深圳思谋科技:已把“循环小模型”塞进 LCD 缺陷检测
- 产线节拍 0.8 s/片,用 11 M 参数 U-Net+4 圈 TRM 解码,把漏检率从 120 ppm 降到 9 ppm,单卡 RTX A2000 搞定,比原来大模型方案省电 63%。
四、为什么工厂比云厂商更欢迎 TRM?
- 时延低:16 圈循环在 8 核 ARM 上 120 ms 跑完,云侧大模型一次前向也要 800 ms;
- 能耗低:7 M 模型全部进 L2 Cache,峰值功耗 6 W,而 70 B 模型单卡 300 W 起步;
- 保密性强:小模型+小数据可完全离线,客户不愿把缺陷样本上传云端;
- 迭代快:工厂每天产生新缺陷,TRM 一晚就能重训完,第二天直接上线。
五、冷思考:TRM 不是万能药
1. 语言任务拉胯:在 GSM-8K 数学只有 18.9%,远低于 DeepSeek-R1 的 88%,循环架构对“长文本依赖”依旧无力;
2. 推理步数=推理成本:16 圈意味着 16 倍算力,如果放到云端大并发,总 FLOPs 优势不再;
3. 泛化边界仍模糊:ARC 是封闭数据集,TRM 在真实业务 OOD 场景会不会“循环塌陷”仍需观察;
4. 硬件适配:国内大部分 MCU 只有 512 KB SRAM,7 M 模型需 28 MB,还需再蒸馏或量化。
六、下一步:把“循环”烧进芯片
三星已在规划 TRM-X 版本:
- 28 nm 制程,嵌入式 8 MB SRAM,256 个 4-bit 乘加单元;
- 单芯片跑 16 圈只需 12 mJ,比 RTX 4090 省 4000×;
- 目标 2026 Q2 出样,首站就是西安三星 NAND 工厂的 AOI 光学检查机。
国内也有对标:
- 清微智能 11 月即将流片 TSR-RR,支持 1~64 圈可配置递归,峰值算力 4 TOPS@INT4;
- 比特大陆第三代 AI 芯片 BM1688 将集成“动态递归单元”,对外宣称 24 小时内可完成 TRM 训练。
结语:
TRM 的出圈,再次印证“尺度定律”不是唯一解——当参数膨胀遇到边际递减,循环结构把“测试时计算”推向台前。对国产大模型而言,与其继续堆 1000 B 的“巨无霸”,不如先学会“让子弹飞一会儿”——让模型自己多改几遍答案。更值得期待的是,当这类“小钢炮”在工厂、手机、车载终端遍地开花,AI 的落地口径将从“云端神话”转向“硅屑革命”。毕竟,能塞进工人裤兜里的智能,才是真正的智能。
—— 至于 ARC-AGI-2 那 85% 的终极门槛?也许下一次刷新榜单的,就是深圳某家工厂夜里 3 点训练出的 5 M“小怪物”。
来源:智能学院