摘要:劈柴哥亲自官宣Gemini 2.0家族更新,分别是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite。
衡宇 发自 凹非寺
终于,谷歌DeepMind坐不住了,出手就是超越DeepSeek-R1!
劈柴哥亲自官宣Gemini 2.0家族更新,分别是Gemini 2.0 Flash、Gemini 2.0 Pro、Gemini 2.0 Flash-Lite。
同时,稳居大模型竞技场第1名的推理模型Gemini 2.0 Flash Thinking,已在Gemini App中推出。
至此,Gemini 2.0家族所有模型,全部跻身大模型竞技场前10。
且Gemini 2.0 Pro超过了DeepSeek-R1。
谷歌首席科学家Jeff Dean表示:“与1.5系列模型相比,2.0系列的每一款通常都比1.5系列的同型号更好”。
而此次上新中,尤其值得关注的模型,有2个。
一个是Gemini 2.0 Pro,谷歌迄今为止在编码和复杂指令任务中表现最好的模型,200万tokens上下文窗口,支持调用谷歌搜索和代码执行等工具。
一个是Gemini 2.0 Flash-Lite,谷歌目前为止性价比最高的模型,针对大规模文本输出用例进行了成本优化(让我们谢谢DeepSeek),还杀进了竞技场总榜前十。
模型使用成本也一降再降,甚至被有的网友调侃,这些模型年纪轻轻就出来打工,还基本免费打工,为爱发电那种。
网友一边直呼鹅妹子嘤,一边玩儿得很开心。
上来就是最近o3-mini和DeepSeek-R1激烈对垒过的六边形内晃小球。
Prompt:编写一个脚本,显示一个球在旋转的六边形内部弹跳。球应该受到重力和摩擦的影响,并且必须真实地弹跳 off 转动的墙壁。使用 p5.js 实现。
你将得到:
而此前o3-mini和DeepSeek-R1的表现分别如下:
高下如何,大家自己评估。
展开来说,此次发布的Gemini 2.0家族三款模型,分别是:
Gemini 2.0 Flash更新版:通用首选Gemini 2.0 Pro实验版:谷歌最强Gemini 2.0 Flash-Lite:性价比首选所有这些模型在发布时都将支持多模态输入,并生成文本输出。
加上此前就亮相了的Gemini 2.0 Flash Thinking,家族全家福现在如下。
在通用、代码、推理、多模态、数学、长文本、图像、音视频等方面,家族3名新成员的成绩如下。
不愧是谷歌自己的新王者,Gemini 2.0 Pro在13项评测中,拿下11个第一。
同时,让人眼前一亮的是,Gemini 2.0 Flash-Lite在Factuality的FACTS Grounding这一项,以84.6%的成绩勇夺桂冠,力压Gemini 2.0 Pro。
下面,我们来分别仔细看看新出现的3名家族成员的具体情况。
Gemini 2.0 Pro是谷歌DeepMind迄今为止最强的模型,不过官方暂且只放出了实验版。
它具有最强的编码性能和处理复杂提示的能力,对世界知识的理解和推理能力也是谷歌最强。
此外,Gemini 2.0 Pro实验版配备了谷歌最大的上下文窗口,即200万tokens。
这使得它能够全面分析和理解大量信息,并具备调用如谷歌搜索和代码执行等工具的能力。
现在,作为实验性模型,Gemini 2.0 Pro已经在Google AI Studio和Vertex AI提供给开发者使用。
如果你是Gemini Advanced的用户,可以在PC端和移动设备端的模型下拉菜单中选中它,进行使用。
去年2024年谷歌I/O大会上,Gemini 2.0 Flash实验版首次亮相。
现在,Gemini 2.0 Flash已经集成到谷歌的AI产品中,人人可用。
谷歌DeepMind的CTO,同时代表了Gemini团队的Koray Kavukcuoglu在博客中表示,Gemini 2.0 Flash提供了全面的功能,适合大规模处理高容量、高频率任务。
并且具备100万tokens长文本能力,支持对海量信息进行多模态推理。
目前,Gemini 2.0 Flash支持多模态输入和文本单模态输出,而图像生成和文本转语音功能已经在路上了,“未来几个月,将提供Gemini 2.0 Flash的多模态Live API”。
当前用法如下:
基于“希望在保持1.5 Flash成本和速度的同时,继续提高模型质量”,谷歌DeepMind推出了Gemini 2.0 Flash-Lite。
这个模型速度和成本与Gemini 1.5 Flash持平,但大多数基准测试中,模型能力优于1.5 Flash。
虽然是Lite版本,但其长文本能力并没有打折——和2.0 Flash一样,它具备100万tokens的上下文窗口,同时支持多模态输入。
而且巨便宜。
便宜到什么地步呢?给大家一个更能感知的例子:
如果让Gemini 2.0 Flash-Lite为4万张左右的不同照片,各自生成一句描述简介,按Google AI Studio定价,这个任务花费的总成本不超过1美元(约7.2751元)。
综上,谷歌用一张图明确表现了3名Gemini 2.0家族新成员的现有能力:
模型一登场,网友们已经玩飞了!
身先士卒的Jeff Dean,第一个奉上他用Gemini 2.0 Pro编程做出的益智休闲类Boggle游戏(他的最爱)。
有人问生成代码并解释需要多长时间,Jeff还很直接地回应了网友,表示:答案是18.9秒。
他激情解说,只需一个相对简单的提示词,Gemini 2.0 Pro就能写出完整的代码,其中包括所有正确的数据结构和搜索算法;它还能找到Boggle棋盘上的所有有效单词。
作为一名计算机科学家,我也很高兴它在第一个前缀树中就正确地使用了数据结构。
紧随其后,还有网友搞了个狂野版贪吃蛇。
“Google Gemini 2.0一次性生成,带编码器模式!创建一个自己爬行扭起来的贪吃蛇游戏,其中100条蛇竞争狂舞。”
虽然他没有在评论区回复到底是用的是Gemini 2.0家族的哪个模型,但效果还是不错滴!
更多的体验,小伙伴们可以直接上手玩玩看,欢迎在评论区和我们分享~
另外值得重视的一个小点——
谷歌DeepMind的CTO在博客中写道,这些发布是谷歌更广泛推动提升AI Agent能力的一部分。
Gemini 2.0系列是用新的强化学习技术构建的,这让模型有了更准确和更有针对性的输出反馈,同时提高了模型处理敏感提示的能力。
他还表示,团队利用自动化红队测试来评估系列模型的安全和安全风险。
其中包括间接提示注入等风险带来的风险——这是一种网络安全攻击,攻击者会将恶意指令隐藏在可能被AI系统检索的数据中。
综上总总,咱可以划出两个重点。
第一,“Gemini 2.0系列是用新的强化学习技术构建的”。
这条路是OpenAI o1第一个明确站出来表示自己在探索的,后来的o3、o3-mini,DeepSeek-R1等国内推理模型,都是追随这条路线,并以其为基础各有优化和发展。
Gemini 2.0家族中最先出场的Gemini 2.0 Flash Thinking已经是这样做的,这次CTO更是直接打明牌。
第二,Gemini 2.0 Flash-Lite,几乎被国内外所有媒体、网友视为DeepSeek-R1压力下的产物。
DeepSeek-R1低成本、高性能、强推理带来的滔天巨浪,不仅迫使OpenAI紧急发布了o3-mini、紧急加播让ChatGPT上新深度搜索;还让谷歌DeepMind也开始走上“AI大模型拼多多”的路线。
目前,DeepSeek-R1模型的输入和输出成本如下:
输入成本:每百万Tokens的输入成本为4元。输出成本:每百万Tokens的输出成本为16元。而Gemini 2.0 Flash-Lite的使用成本如下:
面对这种「神仙打架,凡人捡漏」的情况,我能说什么呢?
我只能说:
谷歌DeepMind CTO博文:
参考链接:
[1]https://x.com/Google/status/1887170927751729385
[2]https://x.com/sundarpichai/status/1887169871697350775
[3]https://x.com/lmarena_ai/status/1887180371219132898
[4]https://x.com/_akhaliq/status/1887195401419166163
[5]https://x.com/JeffDean/status/1887173255448121617
[6]https://x.com/_akhaliq/status/1887272152535294460
— 完 —
来源:量子位