Google回来了,Gemini 2.5 Pro成为真实世界编程最强模型,且成本低

B站影视 港台电影 2025-04-13 18:41 1

摘要:没有发布会的灯光,没有马斯克式的宣战帖,只有一行安静地挂在 LMArena 榜单上的测试结果——Google 发布了 Gemini 2.5 Pro,一款性能超过 GPT-4.5 整整 40 分的模型。

没有发布会的灯光,没有马斯克式的宣战帖,只有一行安静地挂在 LMArena 榜单上的测试结果——Google 发布了 Gemini 2.5 Pro,一款性能超过 GPT-4.5 整整 40 分的模型。

没有掌声,也没有鼓点,只有一个数字在闪:不寻常地高,仿佛一张迟到的成绩单,却写着第一。

这就是 Google 的风格:沉默、缓慢、不讨喜。但当它真正出手,总像是拿着一套别人还没见过的答题纸。GPQA、AIME 2025……那些曾被认为需要“类人推理”的测试题,在 Gemini 面前仿佛只是干净利落的勾选框。

外界很快将讨论聚焦于它的“多模态能力”:能读文本,也能看图、听声音、写代码——像是把图书馆、画室和服务器房都熔进了一个模型里。但用户体验从来不是技术能力的堆叠。一些人在 Reddit 上抱怨它“话太多”,像个刚进办公室、总想刷存在感的新实习生,不请自来地插话、提醒。

而在图像生成上,它犯了那种“聪明人也会犯的错”——把历史人物的肤色画错了。2024 年,一波风波迫使 Google 暂停这项功能,在回应中用了“改进”一词。大公司惯有的说法,意思是“不公开道歉,但会悄悄修复。”

但气氛已经不同了。ChatGPT 独舞了大半场,观众终于意识到:舞台的另一端,有个沉默的大块头开始迈步了。

Google 在 AI 的版图里,其实从一开始就站在最前线。

早在 2010 年,它便悄然押注了一张后来才显露价值的王牌:DeepMind。那年,在伦敦一栋白砖楼里,Demis Hassabis、Shane Legg 和 Mustafa Suleyman 创立了这个名字听起来像小说标题的实验室。他们的目标不是语言,不是聊天,而是理解“学习”本身。在没有说明书的情况下,他们的模型通过试错掌握了打《Pong》和《Space Invaders》的技巧,像素世界里,一场人工智能的启蒙悄然发生。

2014 年,Google 以不到十亿美元的价格将 DeepMind 收入麾下。这笔收购在当时没有引发市场热议,但却是一次精准且前瞻的战略下注。两年后,AlphaGo 以 4:1 击败李世石,第一次让世界见识到 AI 不只是计算,它还能下出一手“不可预判”的棋。人类退场时的沉默,成了 AI 登台最响亮的开场白。

与此同时,在内部的另一条技术轨道上,Google 也在酝酿属于自己的语言革命。2017 年,《Attention Is All You Need》发布,Transformer 架构就此诞生。这篇论文像是一枚低调却剧烈的引信,重塑了整个语言模型生态。几年之内,Transformer 成为 GPT、BERT、Gemini 的通用骨架,像氧气一样无所不在。

从科学、架构到硬件,Google 曾一度掌握着几乎所有关键节点。它是 AlphaGo 的缔造者,是 Transformer 的发明者,是 TPU 芯片的生产者。如果说技术是一种积累,它早早就打好了地基。

但也正因为如此,后来的“落后”才显得刺眼。不是能力的缺失,而是节奏的错位——当 OpenAI 把技术变成产品,把模型变成公众语法,Google 一度像是那个拥有全部拼图、却错过开箱时刻的玩家。

2023 年,Google 终于出手整理这条被拉得过长的时间线——它将 Google Brain 与 DeepMind 合并,组建 Google DeepMind,一个带着双重记忆的新实体:既有 AlphaGo 的静,也有 Transformer 的电。

Gemini 是它的第一个完整表达。

Gemini 2.5 不追求表现力,不刻意人格化。它不讲段子,不抢镜头,只是处理——深入、结构清晰、毫不慌乱地处理。

它可以一次性读完一百万个 token,记住你在第六段埋下的伏笔,也能在第七次提问中准确引用。别人靠猜,它靠定位。

它的多模态理解,也不是为了炫技,而是为了融通:图像、文本、音频、代码,被揉进统一的上下文中,像一个训练有素的合成器,而不是拼接的工具箱。

它还能写代码,而且写得对。在 SWE-Bench Verified 的基准测试中,它拿到了 63.8% 的分数——这个成绩,已经逼近一个熟练开发者的水准。它不仅能补代码,还能通读整个项目结构,指出设计模式错乱,帮你重构,同时解释“为什么这行虽然能跑,但写得不对劲”。

有人说,它像一个“不会犯错的同事”,也有人说它是“没有自尊心的专家”——随便打断它,它从不恼火,也不会反问你为什么。

但它真正令人警觉的,不是它有多强,而是它有多稳。它不追求惊艳,只是很少失误。而这一点,正是 AI 接近“实用”的门槛。

而当 AI 不再只是“听懂人话”,它也开始学会与“自己人”交流。

2025年,Google 提出了 A2A 协议(Agent-to-Agent),表面上是一套技术接口,实则是一种数字礼仪体系的雏形。它定义了 AI 如何彼此握手、协作、告别:一个代理可以通过一张 JSON 格式的 Agent Card 自我介绍,可以和另一个代理协作完成任务,也可以在文本、图像、音频等多模态语境中交换意图。

这不仅是系统之间的通信协议,更像是 AI 世界初生的社交秩序。你必须先解决信任:一个代理怎么知道另一个不会篡改上下文?你还要处理语言流动的问题:不同模型的“思维方式”是否可以被统一语法框起来?

Google 的回答是:可以试试,但别指望一劳永逸。

这套协议还在 Github 上开源中,仍在与 Salesforce、Cohere、MongoDB 等五十多家技术伙伴共建规范。它不是设计的终点,而是一场语言实验的起点。

有评论说它是“AI 的 TCP/IP”,也有人称它只是 Google 对多智能体未来的公关彩排。但无论如何,当机器开始彼此点头、互发任务清单,AI 世界就不再只是单向剧场——它开始生成自己的社会学。

而支撑这一切的,还有硬件。

不是模型的脑子,而是它的骨头与神经系统。

2025 年春天,Google 推出了新一代 TPU:Ironwood。一个听起来像新英格兰森林的小镇,实际上是专为“推理”设计的芯片。它不是为了训练模型,而是为了让超大模型实时上线,为交互性、响应性和稳定性保驾护航。

它支持高达 42.5 exaflops 的计算力,功耗却只有上一代的一半。最多可组成 9,216 颗芯片的超级集群,在你与 AI 对话的那一刻,像一片地下森林般悄然生长、计算、清除。

Ironwood 不会出现在 PPT 的封面上,它的名字只存在于工程文档的脚注中。但它回答的是最底层的问题:能否让十亿用户并发使用时,AI 仍保持毫秒级响应?能否让多模态模型处理视频、文本、音频和图像时,不在第五秒崩溃?

Ironwood 是 Google 对这些问题的冷静回应——不是浪漫的,不是表演性的,但决定性的。

回望整个轨迹,Google 的这场“归来”并不突兀。

它从未真正离开过 AI 的历史舞台。它是 Attention 的发明者,是 BERT 的制造商,是最早造出能下围棋机器的实验室。但在 ChatGPT 改写公众语法之后,它一度成了“慢了”“老了”“输了”的代名词。

而它自己,则像一个不争辩的人,在做一件更漫长的事。

现在我们才意识到,它做的不是“追赶”,而是“归整”——把十几年里散落在论文、实验室、芯片堆、数据中心和愿景蓝图中的碎片,一块块拼回成一个完整系统。

Gemini 是那个表面温和但内里精准的大脑;A2A 是它学会社交和协作的骨架;Ironwood 是支撑它不眠不休运行的心脏;而把这些缝合起来的,是一家终于决定不再只写论文的公司。

Google 的回归没有隆重的片头曲,只有一连串技术细节,一组悄然攀升的排行榜,一种久违的秩序感。

它回来的方式,正如它曾离开时一样安静。

但现在,它说话了。

而我们,也终于开始,重新听它说话。

更多免费AI功能 云片AI:https://y-p.cc/?f=tt

来源:AIGC研究社一点号

相关推荐