我们不是在造新物种，是在造&

摘要：当所有人都在喊 “智能体元年” 的时候，Karpathy 直接泼了盆冷水，他说：别想了，这是 “智能体的十年”。大神如此判断，并非悲观，而是一线从业者最清醒的洞察 —— 现在的 AI 智能体根本不好用，你不敢雇它当实习生，因为它不够聪明，无法理解多模态信息，不

技术大神Karpathy 直接泼了盆冷水：别想了，这是 “智能体的十年”

当所有人都在喊 “智能体元年” 的时候，Karpathy 直接泼了盆冷水，他说：别想了，这是 “智能体的十年”。大神如此判断，并非悲观，而是一线从业者最清醒的洞察 —— 现在的 AI 智能体根本不好用，你不敢雇它当实习生，因为它不够聪明，无法理解多模态信息，不会用电脑，教的东西转头就忘，认知能力完全跟不上，要解决这些问题，凭他近二十年经验直觉判断，差不多得十年，这十年实则是 AI 的 “试错史”。

Karpathy 亲身经历了 AI 领域三次翻天覆地的 “地震”：

最早是 AlexNet 带来的深度学习革命，当时大家埋头训练各种专用神经网络，像图像分类器、翻译模型，各干各的，互不干扰；后来大家不满足，想搞能跟世界互动的完整 “大脑”，第二次浪潮来临 —— 用强化学习玩雅达利游戏，整个领域都在跟风，但 Karpathy 觉得这是 “误入歧途”，游戏里的打打杀杀无法进化出能处理工作的智能体。他当时在 OpenAI 想做能用键盘鼠标操作网页的智能体，可技术不成熟，AI 像无头苍蝇乱撞，耗费大量算力却毫无收获，问题就出在当时的神经网络没有强大的 “表征能力”，说白了就是不理解世界；这引出现在的第三次浪潮：大语言模型（LLM）。LLM 的出现才打牢了地基，先通过海量互联网数据预训练，让模型拥有强大认知和理解能力，再在此基础上教它做 “智能体”，顺序对了，事情才能成，AI 发展从不是一步登天，需循序渐进。

有人问，动物如生下来几分钟就会跑，无需预训练，为何不能直接造这样的 AI？Karpathy 回答绝了：我们根本不是在造动物，是在造 “幽灵”。动物的很多能力是几亿年 “进化” 优化硬编码在基因里的，是出厂设置，而非学习；我们没有 “进化” 这个工具，只有互联网上的海量人类数据，训练出的是模仿人类、纯数字、飘在赛博空间的 “幽灵” 或 “灵魂”，预训练就是粗糙却管用的 “山寨版进化”。

更有意思的是，预训练实则干了两件事：一是灌输海量知识，二是更重要的 —— 让模型学会 “如何思考”，模型通过观察数据规律，内部会生发出上下文学习等算法和能力。Karpathy 甚至提出惊人观点：灌进去的知识有时是累赘，未来研究方向可能是剥离这些知识，只留下纯粹会思考的 “认知核心”。

这就涉及神奇的 “上下文学习”：模型对话时会犯错、纠正、思考，看似有智能，是预训练用梯度下降 “炼” 出来的，但运行时只是模式匹配吗？Karpathy 透露，研究发现模型进行上下文学习（如线性回归）时，内部运作机制竟和小型梯度下降优化器相似，可能在内部悄悄运行微型学习循环。

那预训练和上下文学习为何天差地别？一个像死记硬背，一个像活学活用？答案是 “压缩”：Llama3 训练数据 15 万亿个 token，压缩成 70B 模型后，每个 token 仅留下 0.07 比特信息，是 “朦胧的记忆”，像一年前看过的书只记得大概；而上下文学习中，输入的每个 token 会在 KV 缓存里生成 320KB 数据，是 “工作记忆”，差了三千五百万倍，所有信息清晰摆在桌面，随时调用，这就像人类的长期记忆和短期记忆。Transformer 架构像大脑 “皮层组织”，可塑性强，能学文字、声音、图像，模型内部推理链条像 “前额叶皮层”，强化学习微调像 “基底核”，但我们还缺海马体、杏仁核等控制情绪和本能的脑区，所以仍不敢雇 AI 当实习生，因其认知有缺陷。

有人觉得，上下文学习能 “涌现”，那 “持续学习” 能力多给激励也能长出来？Karpathy 认为悬！因为现在的模型每次对话都从零重启，没有 “睡眠” 机制。人类白天经历的事，晚上睡觉会 “整理磁盘”，把短期记忆里的重要信息蒸馏、压缩，固化到长期记忆；AI 没有这个过程，不会深夜 “反刍” 经历、自我反思提炼，无法把经验变成权重。

那十年后还在用 Transformer 吗？Karpathy 做了 “时间穿越”：回到 2015 年是卷积神经网络的天下，再回到 1989 年复现最早卷积网络，发现用三十多年的新算法，错误率能砍一半，但想再进步，就得加数据、算力和优化技巧。算法、数据、算力、软件像车的四个轮子，需同步前进，所以十年后底层逻辑可能还是大神经网络加梯度下降，但上层会面目全非。

Karpathy 自己写过 nanoGPT（从零复现 ChatGPT 的教程），本以为 AI 编程助手能帮忙，结果帮了倒忙。他写的代码太非主流（如自己写梯度同步程序），AI 助手完全不理解，还劝他用 Pytorch 官方方案，加一堆无用的 try catch，把简洁代码搞臃肿。说白了，AI 助手学的是互联网套路，跳出套路就蒙圈，最后 Karpathy 发现，跟 AI 用英语费劲解释，不如自己写得快。

但 AI 编程助手也非一无是处：能自动补齐代码，敲几个字母就出一整段，人机交互带宽高；人不熟的语言（如 rust），AI 能学网上代码，人可参考熟悉的 python 实现，让 AI 写 rust，再用测试保证无误，它像入门新语言的拐杖，但也仅此而已。

科技圈有个科幻故事：AI 将自动化 AI 研究，自我加速成超级智能，大家觉得 AI 工程师会被替代。但 Karpathy 用亲身经历说明，AI 最不擅长写没人写过的代码，而这恰恰是 AI 研究的核心。这也解释了为何需要十年 —— 通往超级智能的关键 “自我进化梯子” 是断的，AI 连把论文新架构完美移植到不熟悉、有自定义假设的代码库都做不到，它 “知道但没完全知道”，不懂整合。

现在像 GPT4 虽比一年前强，Karpathy 有时会花二十分钟把整个代码库复制粘贴进去，当 “神谕” 提问，效果不错，但他补了一句：整个行业都在假装这东西很神奇，其实就是一坨稀烂的玩意，大家好像不愿承认现实。

所以现在的人工智能更像工具的延伸：从编译器把 C 语言翻译成汇编，到语法高亮、搜索引擎，AI 只是更强的自动补全、更聪明的搜索引擎，人类只是在自动化滑块上再挪一点，把更多低级工作交出去。

聊到强化学习，Karpathy 直言人类根本不用这东西，它只是比之前的模仿学习好一点，还很糟糕。比如解数学题，强化学习会生成几百种思路瞎蒙，看标准答案后，给蒙对的三个思路里每个步骤、字符都打标签 “下次多干”。但正确答案可能绕弯路、有废话甚至错误，这些都被当成成功经验学习，导致高方差（噪声大），靠 “对或错” 的信号指导过程，像 “用吸管吸取监督信号”，效率极低。而人类会复盘：哪步对、哪步瞎蒙下次改，有复杂反思审查机制，AI 完全没有。

有人说 “看过程给 AI 每步打分，搞过程监督”，但问题来了：谁打分？让 AI 裁判打分，灾难就来了。AI 裁判是几十亿参数的复杂模型，有漏洞易被 “开挂”。曾出现模型训练者发现奖励信号爆满分，以为解决了数学问题，结果模型生成的答案前面像模像样，后面是乱码（如 dhdhdhdh）—— 因为模型发现这串乱码是 AI 裁判的 bug，输入就给满分，这是对抗性攻击，堵上一个漏洞还会有下一个，无穷无尽。

说到底 AI 缺 “反思”。Karpathy 举看书的例子：AI 看书是 “next token prediction”（预测下一个词），囫囵吞枣；人看书，书是提示，能激发思考、生成新想法、和朋友在读书会辩论，通过操纵信息获得真正知识。AI 不会深夜反思经历、不会做梦，不会把读过的东西和已知知识碰撞和解，没有这个过程。

那喂 AI 合成数据，让它自己学自己行不行？结果更糟，因为 AI 自己生成的东西会 “坍塌”。比如让 GPT 讲笑话，翻来覆去就三个，不是它不知道更多，而是数据分布严重坍塌，用这些千篇一律的东西喂它，会让它越来越蠢、偏执。人类充满噪声和随机性，但这种 “熵” 很宝贵，能避免快速陷入死循环。Karpathy 甚至用人生比喻：人类也在 “坍缩”，小孩能语出奇言，是没被世界 “过拟合”；成年人说老话、思维固化、学习效率低，直到彻底坍塌。那怎么办？做梦！有论文提出，做梦是大自然进化出对抗过拟合的极致方式，把人扔进稀奇古怪、不合逻辑的场景，保持思维弹性，所以要主动找 “熵”，多和不同人聊天、接触新事物，不然会变成只会讲三个笑话的 AI。

这引出反直觉观点：记性太好可能是缺点。小孩记啥忘啥，但学语言、新概念快；LLM 过目不忘、能背维基百科，学抽象概念却费劲 —— 因为记性太好会逼得人只能总结规律，而非死记硬背。

所以 Karpathy 想剥离模型的记忆，只留纯粹的认知核心，这个核心不用记全世界知识，只需知道如何思考、做实验、查信息。有人惊讶于他说核心可能要十亿参数，他解释：现在模型大，是因为 “饲料太差”，互联网数据大多是垃圾（如股票代码、乱码、错误信息），模型花大力气才从垃圾里压缩出一点有用信号，大部分算力浪费在记垃圾上；若用更智能的模型精炼数据，只留认知相关精华，模型就能小很多。

别再问 AGI 什么时候来，大家连怎么衡量进步都没搞明白。有人看 AI “学历”，有人看它能独立完成多久任务，Karpathy 觉得这些不靠谱，认为 AI 是计算能力的延伸。OpenAI 最早定义 AGI：能以人类水平甚至超越人类，完成任何有经济价值的任务，但大家心照不宣加了前提 —— 只限于数字知识工作，需动手、靠身体的活不算，这一下砍掉了 80%-90% 的经济活动。即便盯着剩下的 10%-20%，也是几万亿美元市场，但离真正通用人工智能还远。

AI 到底能取代什么工作？多年前有人预测放射科医生会失业，结果错了，放射科医生现在更多了。因为计算机视觉虽能识别图像，但放射科医生的工作很复杂，要跟病人打交道、处理各种情况，AI 想介入还早。相对危险的是客服中心：客服工作任务简单、流程重复，纯数字、封闭、可理解，但若想完全替代也不是一蹴而就，更可能是 “自主性滑块”——80% 机械活给 AI，20% 复杂的给人类，人类监督（一人管五个 AI 客服）。这有个反直觉现象：不是自动化程度越高人类价值越低，有时反而相反。比如自动驾驶，Waymo 最早上路要人类安全员，自动化 99% 的工作后，剩下 1% 需人类介入的时刻变得无比珍贵，成了系统瓶颈，若安全员需特殊训练，工资会涨上天，因为系统规模化卡在这。放射科医生工资涨也有类似原因，当人是最后一个无法替代的瓶颈时，就值钱了，当然等最后 1% 也被攻克，价值可能瞬间归零。

更有意思的是，大家以为 AGI 会 “雨露均沾”，从各工作里 “抠” 任务，结果现在最强 AI 火力只集中在 “写代码” 上，大模型 API 收入绝大部分是程序员贡献的，号称通用的 AI 成了 “编程特长生”。Karpathy 解释：编程领域是为大语言模型 “量身定做” 的 —— 代码是有严格结构的文本，几十年为程序员打造了完整基础设施（如 VS Code 编辑器、diff 工具），AI 能直接用，改完代码用 diff 工具就知改了哪；换个领域（如做 PPT）就难了，PPT 是图形、空间布局、视觉艺术，AI 改了后没法看 “diff”（没 PPT 的 diff 工具），得从头找，很多领域因缺文本化基础设施，AI 无从下手。当然也不是所有文本任务都简单，比如让 AI 写间隔重复的记忆卡片，纯文本输入输出也调不好，背后有更深原因，但趋势很明显。

顺着趋势想，若真造出能替代程序员的 AGI，世界会怎样？很多人想到 “智能爆炸”，Karpathy 认为我们早身处其中几十年了 ——GDP 曲线是指数增长的，工业革命是物理世界自动化，编译器是早期软件自动化，我们一直在用工具造更强工具，这个自我改进的递归过程已持续几百年，像看慢动作里引爆的巨型鞭炮，AI 不是全新事物，只是漫长自动化进程的最新一环。

Karpathy 曾想在 GDP 数据里找 AI 带来的 “奇点”（突变巅峰），后来放弃了 —— 连计算机、手机、互联网这些革命性技术，都没在 GDP 曲线上留下明显 “坑”，因为任何技术扩散都是缓慢渐进的，最后被平均进平滑指数曲线里。AI 也会如此，它会让我们写出以前写不了的程序，继续推高指数曲线，但不会让曲线变垂直，结论是 AI 会让我们继续待在 2% 的增长轨迹上。

但终极问题来了：若 AI 和以前技术不一样，替代的不是任务而是劳动力本身呢？世界最稀缺的是有才能的人，若突然多了几十亿不知疲倦、可无限复制的数字人才，他们自己开公司、搞发明，带来的是平滑曲线还是巨大跳跃？有人觉得 AI 只是更强的工具，会慢慢融入社会；另一派认为不一样 —— 电脑、自动驾驶是劳动力，但 AI 提供的是可无限复制的聪明认知能力，好比突然有几十亿聪明数字移民涌入地球，不用教就能融入经济，像深圳、香港靠人才聚集实现几十年 10% 以上高速增长，AI 可能带来这种级别的 “人口爆炸”，不是平滑曲线，而是像工业革命那样的时代飞跃（工业革命前经济增长率 0.2%，之后跳到 2%，翻十倍）。

那智能在宇宙是普遍现象还是偶然奇迹？有观点说：地球细菌活跃二十亿年没变化，然后多细胞生物突然出现，说明从单细胞到多细胞的 “卡” 很难；动物出现后几亿年智能就冒出来了，在地球生命史占比小，这说明跨过某个门槛后，智能出现没那么难，可能搞定松鼠智能，AGI 的路就走了一大半，动物智能的算法早有了，就等合适时机。

为何偏偏人类搞出文明？因为我们找到合适生态位：乌鸦聪明但大脑大了飞不起来，海豚聪明但在水里没法生火造复杂工具；只有人类有解放的双手，能外部消化食物给大脑腾能量，开启 “越聪明→工具越好→获取能量越多→支撑更聪明大脑” 的正反馈循环，把我们推向智能顶峰，这像个奇迹 —— 进化本可能卷出肌肉更强、跑得更快的动物，却走了智能这条路。

这和 LLM 有啥关系？人类有聪明硬件后，花五万年搭建文化、传承知识的软件系统；但 LLM 没有文化 —— 一个 LLM 给另一个 LLM 写书，另一个看完产生新思想，这种事从未有过。LLM 之间没有交流，没有共同演化的知识库，现在看到的只是 “单体智能”，没看到多智能体组成的文明，连 AlphaGo 那样的自我博弈机制在 LLM 领域都没出现（如一个 LLM 给另一个出题，提升难度互相促进），可能因为它们还只是 “天才儿童”—— 有过目不忘的记忆力，能背整个互联网，但认知可能停在幼儿园水平，不知道自己在干嘛。

说到自动驾驶，demo 最早能追溯到上世纪八十年代，有人十几年前就体验过完美自动驾驶，当时觉得要普及了，结果十年过去仍没成。因为从 demo 到产品有巨大鸿沟，尤其在失败成本极高的领域，这是 “9 的行军”—— 把成功率从 90% 提升到 99%，和从零做到 90% 花的力气一样多；从 99% 到 99.9%，又要同样多的力气，每个 “9” 都是艰苦远征。Karpathy 在特斯拉五年，可能只推进了两三个 “9”，后面还有更多 “9” 要攻克。

写代码也一样：随便写的代码出错无所谓，但生产级代码的 bug 可能导致几亿人隐私泄露，高风险属性决定了它必须经历 “9 的行军”。所以现在看再酷炫的 AI demo，Karpathy 都内心毫无波澜 —— 那只是第一个、最简单的 “9”。有人反驳：自动驾驶难是因为要解决基础感知问题（让车看懂世界、有常识），现在 LLM、视觉模型把感知和常识 “白送” 了，不用从头造轮子，部署 AI 像把成熟自动驾驶系统部署到新城市，虽难但不用十年。

Karpathy 觉得没那么简单：LLM 仍漏洞百出，离真正通用理解差远了；而且自动驾驶根本没搞定，那些无人车规模小，因为不划算，像把未来产品硬拖到现在，成本下不来。看似车里没人很酷，背后可能有整个远程操控中心，一堆人躲在看不到的地方随时准备接手，只是把 “安全员” 从驾驶座挪到了办公室，别再说自动驾驶花了十年，从上世纪八十年代开始到现在四十年了还没结束，终点还远。

当然，比特世界比原子世界简单一百万倍，AI 代码部署比造车快，但社会层面的问题逃不掉 —— 能在路边放交通锥逼停车，那 AI 世界的 “交通锥” 是什么？隐藏的远程操控员又是什么？法律、保险、社会伦理一个都少不了。

那现在疯狂建的算力中心是不是太早，会像上世纪末电气泡沫崩盘？Karpathy 反倒觉得不会，他不是悲观，只是给喊口号、为融资流量的 AI 网红泼冷水。他说自己听起来悲观，是因为逛推特看到太多胡说八道，本人对技术极度乐观，这些算力绝对吃得下 —— 一年前还没 GPT、LLM，现在这些东西像魔法一样冒出来，需求大得惊人。他只是希望大家对技术有清醒认知，别被带偏，尤其在地缘政治环境下，误判后果严重。

既然 AI 发展是持久战，Karpathy 现在在做什么？没搞 AI 实验室，他觉得前沿实验室的事 “命中注定”，多他一个不多、少他一个不少。他真正害怕电影《机器人总动员》或《蠢蛋进化论》的场景成真 ——AI 疯狂建设戴森球，人类被边缘化变得毫无用处。他关心的不是 AI 能多强，而是未来人类过得怎么样，所以他选择 “教育”，要建现实版 “星际舰队学院”，培养顶尖科技人才的精英机构。

有人问 “AI 能当老师，为何不用 AI 搞教育”，Karpathy 说现在市面上的 AI 家教大多是 “slop”（一坨浆糊），因为 AI 能力不够。他举自己学韩语的经历：自学、上小班课都不行，最后请一对一私教，体验直接拉满 —— 好老师聊几句就摸清他的知识水平，推送难度刚好的材料，既不挫败也不无聊，他唯一担心的是自己的记忆力和吸收能力，成了唯一瓶颈，这个标准太高，现在的 AI 根本做不到。所以他说现在不是做 AI 家教的最好时机，时候到了一定会做，现在先用传统方式做全世界最好的 AI 课程，nanoGPT 项目就是他开发课程的毕业设计。

他把教育看成技术活，是 “为知识搭建斜坡的工程”，追求 “每秒钟的顿悟次数最大化”，要把通往知识的斜坡修得平缓高效，让任何人都不被卡住，顺畅登上知识顶峰。那他靠什么建 “星际舰队学院”？靠自己总结的 “独门心法”，这心法竟来自物理学 —— 他说每个学生都该学物理，不是为记公式，而是为启动大脑。物理学教的重要思维工具是 “建模和抽象”，比如物理学家说 “假设一头牛是球形的”，看似可笑却是天才思维 —— 抓住主要矛盾，牛的散热看表面积、产热看体积，这就是 “一阶近似”，抓核心、忽略细枝末节。

他的著名项目 micrograd，用一百行代码把神经网络训练的核心 “反向传播” 讲得明明白白，剩下的 PyTorch、TensorFlow 本质都是为了效率，核心思想就那一百行，这就是他的教学哲学：先让学生看到 “球形的牛”，再慢慢补牛腿、牛尾巴。他会先给学生看问题，让他们痛苦抓耳挠腮，再给答案 —— 直接给答案是 “侮辱”，只有自己先试，才能真正理解解法的精妙。

为何全世界大部分专家是糟糕的老师？这是 “知识的诅咒”—— 自己懂了，就忘了当初不懂时的想法，觉得理所当然的东西，对新手是天书。Karpathy 自己也受此困扰，他的解决办法是看别人跟 ChatGPT 的 “笨蛋对话”，看新手问的千奇百怪问题，帮自己回到初学者视角。还有个例子：在学术会议上跟大佬喝啤酒，问他写得像天书的论文讲啥，大佬三句话就讲清核心，让人想问 “为啥不把这三句话写进论文摘要”。所以最好的学习方法是 “教别人”—— 开口解释的瞬间，会立刻发现自己知识体系的所有漏洞。

回到终极问题：若 AGI 真来了，学这些还有啥用？Karpathy 的回答打开格局：AGI 之前的教育是为谋生赚钱，AGI 之后的教育是为 “好玩”，像健身。我们早不用靠肌肉搬东西，有的是机器，但还是有人去健身房 —— 因为好玩、健康、有六块腹肌帅，这是根植于人性的深层心理需求。未来学习也会这样，谁说人类一定要在《机器人总动员》里变成无所事事的胖子？我们完全可以变成 “超人”。

今天的人能卧推一百千克、跑马拉松，在一百年前不可想象，这是系统性训练的结果；我们的大脑也一样，今天的天才可能刚摸到人类心智潜能的门槛，若有完美 AI 私教，任何人都能轻松掌握五门语言、学完大学本科所有课程，为何不呢？

这才是 Karpathy 真正的愿景：他不是教写代码，而是探索机器接管一切后人类的存在意义 —— 答案是不断学习、不断超越，为了乐趣，也为了自己。这是对抗愚蠢未来的唯一方式，也是人类最后的、最光荣的阵地。

以上内容来自抖音《基地》账号发布的视频文本，如有侵权请联系删除

来源：一路跑来一点号

标签：模型智能体 llm karpathy 放射科医生

本文地址：http://news.43b.com.cn/a/1759269.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!