摘要:接下去说的都是围绕这两款模型干了啥、能干啥、会怎么用。先说个比喻:就像公司里有两个同事,一个是反应快、爱聊、做事速度块;另一个遇到难题会慢慢琢磨,爱把细节拆开讲清楚。系统现在会根据你要做的事,尽量把合适的“同事”分配给你。旧的 GPT-5 还留着,能在下拉菜单
OpenAI 在 11 月 12 日把 GPT-5.1 推出来了,这次分成两款:Instant(即时版)和 Thinking(思维版)。
接下去说的都是围绕这两款模型干了啥、能干啥、会怎么用。先说个比喻:就像公司里有两个同事,一个是反应快、爱聊、做事速度块;另一个遇到难题会慢慢琢磨,爱把细节拆开讲清楚。系统现在会根据你要做的事,尽量把合适的“同事”分配给你。旧的 GPT-5 还留着,能在下拉菜单里选,给大家三个月时间慢慢适应。
即时版的定位比较直白——跟人话更顺,听指令更紧。它里面加了个“自适应推理”的流程:在给你答复之前,先快速判断这问题是不是需要多花点时间“想一想”。如果不复杂,直接快刀斩乱麻;复杂一点的,先多想几步再说。官方拿 AIME 2025、Codeforces 这些有标准答案的题目去测,确实看到它在某些题目上表现得更好。另一个明显的变化是它对硬性要求的服从度提高了——像那种“必须用六个字回复”之类的命令,新版本更能把话压到你要的格式里,语言也更紧凑些。老版本常出现“不太听话”的情况,这次在这点上收敛了不少。
思维版则更偏向把资源往难活上倾斜。测试里看到个有意思的现象:对一些本来就快的任务,思维版反而比 GPT-5 更快;但在那些本来就耗时的复杂任务上,它可能比以前更慢一点,像是遇强则强、遇弱则弱——碰到难题就往里投入更多“算力”和时间。它在解释专业内容时也下了工夫,会尽量少用行话,改成带导读式的表达,像把复杂的东西拆成一页页的讲义,更方便在工作场景里当成解释材料来用。
这次在语气控制上也做了细分。保留了原来的“默认”“友好”“高效”,同时新增了“专业”“坦诚”“古怪”等选项。你还能调回复的简洁度、亲切度、可读性和表情的使用频率,调得挺细的。更方便的是,不用每次进设置页去折腾,跟模型对话时就能直接换风格——模型会问你要不要换个口味,点一下就切。这种交互方式把控制权放得更直观。
在具体输出上,变化主要体现在措辞和示例上。原来那种术语堆得老高的解释少了,更常见的是把步骤、公式拆开讲清楚。举例来说,解释棒球统计里 BABIP、wRC+ 这类指标时,不再单纯给公式,而是把计算逻辑一步步说明,像老师在黑板上划步骤。信息量没一下子暴增,但难懂的部分拆得更明白了,读起来更顺。要注意的是,把话讲清楚不等于在底层推理上有质的飞跃,两件事不能混为一谈。
有人提出批评,说这次升级更注重“讨好感”。他们的意思是:用户往往更想要的是性能、解题能力和实际可用性,而不是 AI 更会说人话、显得更有温度。确实,这次把“更会聊天”当作目标之一,让产品更像一个好相处的工具,而不是单纯的计算机。对部分重视底层能力提升的人来说,这看起来像是往产品上抹了点表面光,技术路线有点偏了。
说点细节。以前那种严格格式要求,老模型常常“跑偏”——比如让它“总用六个字回复”,它经常多两个字或少一个词。现在即时版在这类场景下表现更稳一些,虽然不能保证百分百合规,但大多数时候能把回答压到要求范围,这对需要严格格式输出的场景确实有用。另一个细节是思维版解释复杂问题时更倾向用通俗说法,减少术语堆砌,这在公司内部讲解技术、写培训材料时挺省事的。可惜的是,这种“更会讲”的能力并不等于“更会推理”,两者不是一回事。
从产品层面看,调整很明显:更多可调的个性化选项、更灵活的对话中切换、更细的输出控制。商业化味更浓了——把用户体验拆成小功能点来卖。对一些想把 AI 当工具、把体验做成产品交付的团队,是好事;对那些期待底层能力一次大跃进的技术流用户,可能会觉得不够刺激。
实操角度挺好玩的:系统会根据你对话的内容和任务类型自动把你分到 Instant 或 Thinking。你可以按照习惯手动切换,旧版也还能从下拉菜单里找得到,这算是个过渡安排。真实使用场景里,很多人会把即时版留给日常沟通、写摘要之类的活,把思维版放在要做深度分析、细致推理的活上。社区里最近把新语气设置拿去做客服脚本、写稿模板和教学演示,效果不一,积累的反馈会慢慢显现。
用的过程中能看到一些实际好处,也能看到局限。好处是沟通成本下降了一部分,尤其是在需要把复杂概念讲给非专业听众时,模型能主动把行话拆掉。局限在于,要达到真正可靠的推理能力,还是要靠更深的算法和更多的验证,而不是把外壳做得更讨喜。对企业来说,这套配置更容易落地:可以把即时版当成话务、文案助手,把思维版当成技术评审、报表解读的帮手。
如果你现在想上手,用法也挺直接。系统会试着自动配合你要做的事,但你也能在界面里手动选版本;旧的 GPT-5 还留着,过渡期里别急着改。社区的测试和反馈会继续,有的人已经开始把新版应用到日常工作流里,有的人还在观望。三个月的时间窗口给了大家缓冲,后面会怎么走,就等官方下一步的通知。
来源:勇者春风SzsDN