摘要:就拿 Andrej Karpathy 反复强强调的「LLM OS」来说。未来的 AI 不会是一个单一的、无所不能的超级模型,而是一个操作系统。这个系统里,有重量级的核心进程 (比如 Pro/Ultra),也有大量轻快、高效的后台服务和工具 (比如 Flash/
输出速度遥遥领先,性能成本甜点位模型。
Gemini 2.5 Pro 虽好,但成本高,速度慢。
就拿 Andrej Karpathy 反复强强调的「LLM OS」来说。未来的 AI 不会是一个单一的、无所不能的超级模型,而是一个操作系统。这个系统里,有重量级的核心进程 (比如 Pro/Ultra),也有大量轻快、高效的后台服务和工具 (比如 Flash/Flash-Lite)。
当我们需要快速完成一些轻量级任务时,根本不需要动用那个最强大、最昂贵的模型,而是需要性价比更高、响应速度更快的模型。
而且谷歌好就好在他有 free tier 的免费额度啊,Gemini 今年全线出击,网页端有学生一年的活动,AI Studio 的 API 每天免费 100 次 Pro、250 次 Flash、1000 次 Flash-Lite,开发者可以零成本上手最先进的模型:
Gemini 2.5 Flash 和 Flash-lite 的定位一直都是快和便宜。这次也是继续强化这两个特性。简单来说就是治理提升,响应变快:
同时输出的答案更加简短,等同于大幅降低了使用成本:
Artificial Analysis 的第三方测评也支持了类似的结论,首先是智能分数的提升,Lite 非思考模式一下子涨了 12 分,超过了之前的 Flash 和 Lite-Thinking 模型。
虽然模型的定价没有发生变化,但从 token 效率上讲,运行同样的基准测试,Gemini 2.5 Flash-Lite Preview 09-2025 的输出 token 消耗量比前代减少 50%,而 Gemini 2.5 Flash Preview 09-2025 则减少了 24%。唯一的例外情况是非推理模式下的 Gemini 2.5 Flash Preview 09-2025,输出 token 消耗量反而比前代更多。
从输出速度讲,Gemini 2.5 Flash-Lite Preview 09-2025(推理模式)比 7 月发布的版本快约 40%,Google AI Studio 上的输出速度达到约 887 token/秒。
不过,当模型走入生产环境,我也看到了开发者的很多抱怨。
比如开发者社区集中反馈了 Gemini API 的「响应截断」问题,API 经常在说到一半的时候直接断片儿,不是 token 限制,也没有触发安全审查,就是纯粹的 BUG。
这个问题,在 Github 上作为一个 P2 级别的问题,已经挂了好几个月了 [1] 。在生产环境里,可靠性,永远比性能更重要。
再比如命名问题,Gemini 这模型命名不知道跟谁学的,明明是 2.5 的改进版,完全可以写个 Gemini 2.5.1,或者写个 Gemini 2.6,现在这种命名是真的混乱。
我也是看了好久才明白,以前的版本是不带 preview 的 stable 版,今天的版本是 gemini-flash-lite-preview-09-2025,或者直接写成 gemini-flash-lite-latest。
最后,还是期待一手 Gemini 3 Ultra,看看下一代的超级模型究竟能把天花板抬到什么高度。
来源:博识雅士一点号