谷歌发布Geimini2.0,开启Agent新时代

B站影视 2024-12-12 19:48 2

摘要:基于强大的新模型,谷歌又推出了三个AI agent产品,通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules,这一套“组合拳”下来,标志着谷歌AI已经初步做到了向“Agent”时代的转变。

谷歌抛出王炸杀手锏,先人一步开启Agent新时代。

整理丨允毅

编辑丨马晓宁

Open AI连续几天上新,谷歌也不甘示弱。

今天谷歌深夜炸群,重磅发布了杀手锏——Gemini2.0,声称“Gemini2.0 是我们迄今为止最新、功能最强大的 AI 模型。”

其最大的亮点是Gemini2.0 是第一家实现原生多模态输入输出的模型。

基于强大的新模型,谷歌又推出了三个AI agent产品,通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules,这一套“组合拳”下来,标志着谷歌AI已经初步做到了向“Agent”时代的转变。

谷歌DeepMind的CEO德米斯·哈萨比斯(Demis Hassabis)对此表示非常满意,因为Gemini 2.0 实际上达到了目前 Gemini 1.5 Pro 的水平。这意味着在保持相同成本效率、性能效率和速度的情况下,整体性能要整整提升一个档次。

1

Gemini2.0,第一个实现原生多模态输入输出的模型

在Gemini2.0发布前,谷歌发布的一款名为Gemini-exp-1206的模型已经火爆全网。该模型能够处理 200 万个标记(相当于一个多小时的视频),擅长处理大型复杂数据集。因为高超的性能,它在 Livebench 上排名第二,超过了Claude 3.5 Sonnet,直逼Open o1-preview。

许多人猜测这可能就是Gemini2.0。

当Gemini2.0的实力真正揭开帷幕,比想象中还令人震撼。首先性能上全面升级。在速度方面,2.0 的速度是 1.5 Pro 的两倍,这一速度提升意味着用户将享受到更高效的处理能力和更快的响应时间。

在性能方面,Gemini2.0可以支持图片、视频和音频等多模态输入与输出。可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。

基于Gemini2.0架构之上,谷歌推出了三个新的AI智能体原型:通用大模型助手Project Astra、浏览器助手Project Mariner、编程助手Jules。

2 谷歌送上Agent大礼包

Agent是指无需人工干预或监督即可自主执行任务的人工智能技术。它们允许用户将任务委托给人工智能,从而大大优化人类的工作流程,组建一支随时待命的助手团队,几乎无需监督。

谷歌在2024年的末尾,送上了Agent大礼包。

Project Astra:通用大模型助手

Project Astra是谷歌最初在5月的I/O大会上首次对外发布的AI助手,对标OpenAI的GPT-4o,其主要功能包括实时语音和视觉处理,能够通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。

Astra产品经理Bibo Xu将认为Project Astra在整合一些当今最强大的信息检索系统。

此次,Project Astra全面升级了四个性能:更好的对话,能调用新工具,更强的记忆,更低的延迟。

更好的对话:Project Astra具备多语言对话能力,能够更好理解不同口音和不常见词汇。

调用新工具:借助 Gemini 2.0,Project Astra 可以使用 Google 搜索、镜头和地图,使其作为您日常生活中的助手更加有用。

更强的记忆:Project Astra拥有长达 10 分钟的会话记忆,能记住更多用户与其过去的对话,从而提供个性化的服务。

更低的延迟:通过对新的流媒体功能和本机音频理解,Project Astra 可以以与人类正常对话的速度来作出反馈。

Google 和 Alphabet 首席执行官桑达尔·皮查伊(Sundar Pichai)对这一产品尤为自豪,称它为“展示了通用AI助手的曙光”。而谷歌方面正打算将这些功能引入 Google 产品,如Gemini应用、 AI 助手,眼镜等。

Project Mariner:浏览器助手

Project Mariner是一个使用 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序使用这些信息完成任务。

简而言之,就是用AI来帮助人类操作电脑,通过控制用户的Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格,Project Mariner 可以登录杂货店网站购物,还可以查找航班和酒店、购买家居用品、查找食谱等。

根据WebVoyager 基准进行评估,该基准测试代理在端到端真实世界网络任务上的性能,Project Mariner作为单一代理设置实现了 83.5% 的最佳工作结果。

不过从安全性考虑,这一切都在用户监督允许的范围内,许多敏感操作会要求用户进行最终确认。

某谷歌高管称Project Mariner是“全新用户体验范式转变”的一部分。

Jules:编程助手

Jules简而言之,就是AI帮你写代码。它直接集成到 GitHub 工作流程中,查看用户已有的代码,并直接在 GitHub 中进行更改,解决开发者头疼的改bug环节,而这一切也都在用户的监督之下,保证安全的同时节省时间,方便用户专注于做自己实际想构建的内容。

Gemini2.0的全面还包括在游戏、学术研究、机器人领域做的尝试。

谷歌正在与Supercell等游戏开发商合作,探索智能体在游戏中的应用。谷歌推出的AI游戏助手可以理解游戏规则和进程,能够通过用户游戏屏幕上的动作来给出下一步操作建议。谷歌展示了从《部落冲突》等策略游戏到《Hay Day》等农场模拟器游戏中,AI如何通过对话的形式为玩家提供建议。

谷歌推出的Deep Research,如同学术研究助手,通过高级推理和长上下文能力,可以直接出论文。

谷歌还想将 Gemini 2.0 的空间推理能力应用于机器人身上,帮助机器人更加智能化。

Gemini2.0在音频和图像生成方面展现了强大实力,系统可以生成和修改图像,处理照片和视频,回答相关问题,用不同口音和语言的声音朗读文本。为了防止滥用,谷歌使用SynthID技术对所有生成的音频和图像进行水印标记。谷歌还推出了多模态实时API,帮助开发者构建具有实时音频和视频流功能的应用程序。这个API支持来自摄像头或屏幕的音频和视频输入,能够处理自然对话模式。

Gemini2.0的强大基于谷歌定制的硬件第六代TPUTrillium构建而成。Trillium与前代产品相比全面升级,如训练性能提高超过 4 倍,推理吞吐量提高3 倍,每个芯片的峰值计算性能提高了 4.7 倍,效提高67%,每颗芯片峰值计算性能提高4.7倍,HBM容量翻倍,单个Jupiter网络有10万颗TPU,高至2.5倍的每美元训练性能,1.4倍的每美元推理性能。

目前人们可以通过PC端优先体验2.0Flash 实验版,而Gemini2,0移动版将很快呈现。明年1月谷歌会推出Gemini 2.0 Flash 多模式版本,届时还将推出更多 Gemini 2.0 模型尺寸。

而作为提供给开发者的体验版模型,Gemini 2.0 Flash 现在可以通过Google AI Studio和Vertex AI中的Gemini API获取,所有开发者均可使用多模态输入和文本输出。

3 谷歌开启Agent时代

谷歌正在疯狂将AI融入它所拥有的所有产品中。

Google 和 Alphabet 首席执行官 桑达·皮采(Sundar Pichai)对这款产品寄予厚望,他说如果 Gemini 1.0 是关于组织和理解信息的,那么 Gemini 2.0 就是为了让信息更加有用。其中重要的区别就是“Agent”,这是人工智能时代下一个大方向。

在桑达尔·皮查伊(Sundar Pichai)描述中,“Agent可以更好地了解你周围的世界,提前思考多个步骤,并在你的监督下代表你采取行动”。谷歌这次秀肌肉,完整呈现了系统级 Copilot 和智能体应用,展现了Agent可以为人们生活带来的全方位改变。

谷歌表示他们的AI Overviews已服务超过10亿用户,帮助用户提问全新的问题类型,成为谷歌搜索引擎最受欢迎的功能之一。他们准备把Gemini 2.0的先进推理能力引入AI Overviews,处理更复杂的主题和多步骤问题,包括高级数学公式、多模态查询和编程,探索更多功能引入产品本身。谷歌的愿景是在2025年开启真正的“AI智能体时代”。

据彭博社报道,OpenAI 正准备发布一款能够控制计算机并独立执行任务的自主 AI 代理,代号为“Operator”,计划于 1 月份将其作为研究预览版和开发工具首次亮相。

2025年是Agent时代的真正开始,到时又会有怎样的厮杀呢,我们拭目以待。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

来源:AI科技评论一点号

相关推荐