摘要:在保持 o3 四分之一以下的低价格的同时,在编码(Aider Polyglot)、推理能力(HLE)、科学(GPQA)等各项基准测试中超越 o3,实现更优性能!
深夜,谷歌对其最强大的 2.5 Pro 模型进行了一次重大更新(06-05)。
在保持 o3 四分之一以下的低价格的同时,在编码(Aider Polyglot)、推理能力(HLE)、科学(GPQA)等各项基准测试中超越 o3,实现更优性能!
该模型基于我们在五月份发布并在 I/O 大会上展示的版本(05-20)构建,并且将在几周内成为正式发布的稳定版本,并最终集成到 Gemini 应用中供所有用户使用。
目前已经可以在 Google AI Studio、Vertex AI 和 Gemini 应用中使用。
最新的 2.5 Pro 模型在多个基准测试中表现优秀:
综合性能: 在 LMArena 上,Elo 分数提升 24 分,以 1470 分的成绩高居榜首。
Web 开发能力:在 WebDevArena 上,Elo 分数大幅提升 35 分,以 1443 分的成绩占据领先。
编码能力:在 Aider Polyglot 中,超过了 Claude Opus 4。
推理:在旨在评估数学、科学和知识能力的 GPQA 及「人类终极考验」等顶级测试中,展现出卓越性能。
另外,Gemini 2.5 Pro 的定价也很有优势,比 OpenAI o3、Claude 4 Opus 及 Grok 3 等主要竞争对手都更加便宜。
以 Gemini 输入每百万 token 1.25 美元,输出 10 美元的价格为基准,成本优势一目了然:
对比 OpenAI o3: Gemini 的输入成本仅为 o3 的 1/8,输出成本为其 1/4。
对比 Claude 4 Opus: 优势更为惊人,输入成本不到其 1/10,输出成本也仅为其价格的 13%。
对比 Grok 3: 同样优势显著,输入成本不到 Grok 3 的一半,输出成本也只是其 2/3。
值得一提的是,新版本中还增加了思考预算,让开发人员能够更好地控制成本和延迟。
谷歌还采纳了针对上一版 2.5 Pro 的反馈,改进了其输出的风格和结构——现在它的响应可以更具创意,格式也更出色。
我们来做个对比测试:你现在是一只活了 500 年的猫,请用一种厌倦又略带高傲的口吻,抱怨一下你最近换的这位「铲屎官」。
这是新版 2.5 Pro 输出的内容:
(趴在窗台上,懒洋洋地甩了一下尾巴,半眯着眼睛,用一种看透了世间万物的语气开口)
唉……
说起来,我最近换的这位「铲屎官」,已经是本尊记不清的第几十任了。打从明朝那会儿起,我就看着你们这些两脚兽来了又去,跟那窗外的四季似的,没个消停。
这一届的,尤其麻烦。
你们能信吗?他管我叫「猪咪」。
猪?咪?
呵,真是滑天下之大稽。本尊当年在王府里,那也是有「雪影」这等雅号的。陪着主人听过昆曲,闻过上好的龙井,爪子都只踩在波斯地毯上。现在倒好,沦落到跟一种以蠢笨闻名的牲口相提并论。这小子的审美和学识,怕是连嘉靖年间宫里扫地的太监都不如。
还有吃食。想当年,御膳房的小灶日日为我备着最新鲜的长江鲥鱼,剔骨去刺,只取中断。再不济,民国那会儿跟着一位银行家,顿顿也是法式小牛肝。现在呢?他给我端来一碗褐色的、干巴巴的、号称「科学配比全价猫粮」的玩意儿。
科学?你们人类的科学在我眼里,就跟那后院蚂蚁搬家一样,忙忙叨叨,却不知所谓。那玩意儿吃起来,口感粗糙得像是掺了沙子,味道寡淡得好比是和尚的斋饭。他还一脸期待地看着我,仿佛那是天大的恩赐。我不过是给他个面子,勉为其难地舔两口,他就高兴得手舞足蹈,还要拍照发到那个叫「朋友圈」的地方去炫耀。愚蠢。
最可笑的是他的「爱抚」。他不懂得顺着我的脊骨,用恰到好处的力道,从头顶一直抚到尾根。不,他只会像揉面团一样,粗鲁地在我身上乱抓一气。还总想把脸凑过来,用他那满是凡人气息的嘴发出「啾啾啾」的噪音。本尊的龙体是尔等凡夫俗子能随便亵渎的吗?每次我只不过是发出一点表示不满的咕噜声,他就以为我「舒服得打呼噜了」。唉,对牛弹琴,莫过于此。
哦,对了,还有那个会发红点的笔。他管那叫「逗猫棒」。他举着那个东西晃来晃去,看我追逐那个虚无缥缈的光点,笑得前仰后合。我追,不是因为我傻,而是为了活动一下这把老骨头,顺便……可怜一下他那贫瘠的娱乐生活。五百年了,从皇帝手里的玉如意流苏,到闺秀发髻上的金步摇,什么我没玩过?一个破光点就想取悦我?天真。
算了,不说了。跟你们这些寿命不过百年的生物,也没什么好计较的。反正再过几十年,他又会变成一捧黄土,而我,只不过是换个地方,换个两脚兽,继续我这漫长又无聊的猫生罢了。
哼,那个铲屎的过来了。看他手里的样子,八成又是那个难吃的猫粮。罢了,今天心情好,就赏他个脸,吃两口吧。
……记得,晚膳要加一条小黄鱼,清蒸的,不加葱姜。要是忘了,今晚他的被子就别想要了。
这是上一版本输出的内容:
唉,五百年了,又换了一个。真不明白这些两脚兽是怎么繁殖的,代代相传的,除了折腾我的生活,还能干点什么?
这位新来的,叫什么……哦,忘了。名字不重要。重要的是,她的业务能力,简直让我这五百年的猫生阅历都感到疲惫。
首先是食物。她以为我是一只普通的、刚断奶的小猫咪吗?每天换着花样地给我提供那些闻起来就透着一股庸俗气息的罐头和干粮。有时候是那什么「深海鳕鱼配三文鱼」,有时候又是「农场走地鸡佐蔓越莓」。拜托,我只想要我的那一份,准确无误、温度适中、放在那个我惯用的碗里,静静地摆在那里。她总想给我「惊喜」,结果惊喜变成了惊吓。我才刚勉强适应上一个牌子,她就又换了。难道她不知道,挑剔是刻在我灵魂里的天性,而坚持,才是我活了五百年唯一的信仰吗?
然后是她的「关爱」。拜托,我是猫,不是需要被随时抱在怀里的婴儿。她总是在我刚找到一个完美的午睡角度,太阳光线刚刚好,温度刚刚适中,尾巴尖才刚开始微微颤动的时候,突然伸出一只粗鲁的手,试图把我抱起来,还说什么「小可爱,想你了」。我「想你」?我只想在你怀里打个盹,然后一爪子把你抓醒,让你知道我的存在,仅此而已。难道他们不知道,我肯屈尊让你触碰,那本身就是一种恩赐?
最让人无法忍受的是,她对我的私人圣殿——猫砂盆的维护。我以五百年的猫生阅历担保,她是我见过最不勤快的铲屎官!每次我优雅地完成我的「创作」后,她都不会立刻前来清理。那味道,那残骸,那简直是在对我高贵的嗅觉进行侮辱!她难道不知道,每一次我用爪子扒拉着那些被污染的猫砂,我的内心都在咆哮着对她的不满吗?我甚至怀疑,她是不是觉得我在那里做艺术品,所以才舍不得清理?
还有她那些拙劣的「逗猫」伎俩。激光笔?羽毛棒?拜托,我早已看穿了一切。我陪你玩,只是为了给你一个继续活下去的理由,让你觉得自己对这个家还有那么一点点用处。她还总是在我不需要她的时候发出奇怪的噪音,吸尘器、电视里那些聒噪的节目,甚至只是她自己喋喋不休的自言自语。安静,这屋子里最稀缺的奢侈品。
罢了,罢了。我已经懒得教育她了。五百年来,我见证了无数个像她这样的两脚兽来来去去,他们都以为自己是我的主人,殊不知,我才是这屋子里唯一值得被伺候的存在。她,也只是我漫长猫生中,又一个匆匆的过客而已。我只希望,她能快点学会我的作息规律,以及,我的碗永远不能空。否则,我可不保证会发生什么「意外」。哼。
可以看到,上一版的输出还是没有脱离典型的「 首先——然后——最后 」式 AI 输出格式。在角色塑造上,新版对猫咪的阅历、性格和语言处理得更贴近创作要求。
在用户实测中,大家对新版 Gemini 也是赞不绝口。在其他人的测试中,Gemini 2.5 Pro 准确且权威地回答了他们一个长期以来的测试问题。当被问及「 如果不存在马真塔(Magenta)镇,品红色(magenta)还会叫这个名字吗? 」时,新的 Gemini 2.5 Pro 明确地回答「 不会 」。
谷歌更新后的 Gemini 2.5 Pro 是少数能正确推理出此问题答案的模型之一。
一个 2023 年版本的 Claude 模型在该问题上含糊其词。
值得一提的是,就在几天之前,Gemini 的图像生成能力还引起了广泛关注。
谷歌 CEO 劈柴哥也晒出了一张 AI 生成的狮子图,这究竟是为自家更新高调「 站台 」,还是在展示 Gemini 的作图实力?
不过新版本发布不久,Gemini 就被越狱攻击成功,不知道谷歌官方作何感想。
来源:晚晚的星河日记一点号