摘要:Google的全新开始公司本月宣布推出Gemini 2.0系列的第一个模型—以其低延迟和增强性能而著称的Gemini 2.0 Flash的实验版本。伴随着Gemini 2.0的发表,Google 和 Alphabet 的 CEO Sundar Pichai 回
Google的全新开始公司本月宣布推出Gemini 2.0系列的第一个模型—以其低延迟和增强性能而著称的Gemini 2.0 Flash的实验版本。伴随着Gemini 2.0的发表,Google 和 Alphabet 的 CEO Sundar Pichai 回顾了Google这26年来致力于组织全球信息并使其易于访问和有用的目标,并强调了信息对人类进步的重要性。从去年12月,Google推出了Gemini 1.0,这是首个支持多模态的模型,能够处理文本、视频、图像、音频和代码等多种形式的信息,并且在长上下文的理解上取得了进展。如今,Gemini已经吸引了数百万开发者使用,并推动了多个拥有2亿用户的平台的创新,比如NotebookLM就是一个利用多模态特性的成功案例。
在过去的一年里,Google专注于开发具有更强代理能力的AI模型,这些模型可以更好地理解环境,进行多步推理,并在用户的监督下执行任务。如今公司推出了Gemini 2.0,这个最新的模型不仅在多模态方面有了新的提升,还能直接生成图像和音频输出,并具备工具使用能力。这将有助于创建更智能的AI助手,向实现全能助手的目标迈进了一步。
Gemini 2.0已经开始向开发者和信任的测试者提供,并计划迅速整合到产品线中,特别是搜索引擎。新推出的“深度研究”功能将作为研究助手,帮助用户探索复杂主题并编撰报告。搜索功能一直是AI变革的重点领域。目前,Google的AI概览已覆盖10亿人,允许他们提出新的类型的问题。未来,Gemini 2.0的高级推理能力将进一步增强这一特性,以处理更复杂的查询,包括数学方程、多模态查询和编程问题。
支撑Gemini 2.0的背后是Google多年来在AI领域的全栈方法和技术积累,其中包括第六代TPU——Trillium芯片,它为模型的训练和推理提供了强大的计算能力。Trillium现已面向客户开放,使更多开发者能够利用这项技术构建自己的项目。
接下来我们来看下本次发布的Gemini 2.0 Flash带来的新的技术体验!
Gemini 2.0 Flash的特点
Gemini 2.0 Flash继承并发扬了1.5 Flash的成功,相比前代,2.0 Flash不仅保持了快速响应时间,还在关键基准测试中超越了1.5 Pro,速度提高了两倍。
此外,Gemini 2.0 Flash还支持了多模态输入与输出——除了处理图像、视频和音频等多模态输入外,2.0 Flash现在还能生成结合文本的图像,并提供可调节的多语言文本转语音(TTS)功能。以及工具调用——可以直接调用像Google Search这样的工具,执行代码,甚至可以调用第三方用户自定义函数。
Gemini 2.0 Flash正式开放
目前,开发者可以通过Google AI Studio和Vertex AI平台上的Gemini API访问Gemini 2.0 Flash的实验版本。这一版本支持多模态输入和文本输出,所有开发者都可以使用;而对于早期合作伙伴,则开放了文本转语音和原生图像生成的功能。预计到明年1月,更多不同规模的模型将全面上线。
为了帮助开发者构建动态和交互式应用,Google还发布了新的多模态实时API,它支持实时音频、视频流输入,并能够结合使用多种工具。关于2.0 Flash和多模态实时API的更多信息,可以在开发者博客中找到。
Gemini 2.0应用于AI助手
全球的Gemini用户可以在桌面和移动网页版中选择2.0 Flash的聊天优化版本进行体验,不久后也将出现在Gemini移动应用中。通过这个新模型,用户可以享受到更加智能和有用的Gemini助手服务。
探索代理体验的新可能
Gemini 2.0 Flash的原生用户界面动作能力、多模态推理、长上下文理解、复杂指令执行和规划、组合函数调用、原生工具使用以及改进的延迟等功能共同作用,开启了代理体验的新纪元。
在AI代理的实际应用方面,这是一个充满无限潜力的研究领域。Google正在探索一系列原型项目,以帮助人们完成任务。例如,Project Astra研究的是未来全能AI助手的能力;Project Mariner着眼于浏览器中的人机互动;还有Jules,一个能辅助开发者的代码代理。
接下来展开讲讲这几个新的AI代理应用。
Project Astra:探索多模态理解在现实世界的应用
Project Astra是谷歌DeepMind推出的多模态虚拟助手,它不仅支持在安卓手机上使用,而且还在开发阶段中被集成到原型眼镜中。基于Gemini 2.0构建的最新版本的Project Astra实现了多项改进:
更流畅的对话:现在,Project Astra能够用多种语言甚至混合语言进行交流,并且对口音和不常见词汇有更好的理解能力。新增工具使用:借助Gemini 2.0,Project Astra可以使用Google Search、Lens和Maps等工具,使其在日常生活中更加实用。更强的记忆功能:Project Astra现在可以在会话中保持长达10分钟的记忆,并能记住更多之前的对话内容,使个性化体验更加完善,同时确保用户始终处于控制之中。更低延迟:通过新的流式处理能力和原生音频理解技术,代理能够在接近人类对话的速度下理解和回应语言。比如下面图中,用户可以通过拍摄直接提问Project Astra进行对话
Project Mariner:探索浏览器中的人机协作新方式
Project Mariner 是一个基于 Gemini 2.0 构建的早期研究原型,旨在探索未来人机交互的可能性,从浏览器开始。作为研究项目,它能够理解和处理浏览器屏幕上的信息,包括图像、文本、代码和表单等元素,并通过实验性的Chrome扩展程序来帮助用户完成任务。
在WebVoyager基准测试中,该测试评估代理在真实世界网络任务中的表现,Project Mariner取得了83.5%的成功率,尽管仍处于早期阶段,Project Mariner表明了在浏览器内导航并执行任务的技术可行性,不过目前的准确性和速度还有待提高。
目前,部分测试者已经开始使用实验性的Chrome扩展程序测试Project Mariner。
右侧输入了任务后,浏览器就会自动执行相关的任务,并在执行过程中展示它的思维链
Jules:为开发者提供辅助的AI代理
Google的Jules是一个实验性的AI代码助手,帮助开发者自动修复代码错误。Jules的发布是谷歌在自动化编程任务方面的重要进展,与Gemini 2.0一同发布,使用更新后的谷歌人工智能模型来创建多步骤计划,以解决问题、修改多个文件,并直接集成到GitHub工作流中。Jules的设计理念是让开发者能够专注于核心开发工作,同时Jules在后台异步处理bug修复和其他耗时的任务。
Jules的主要功能包括:
自动修复代码错误:Jules能够分析代码库,识别错误,并自动生成修复方案。多步骤计划执行:它能够创建并执行多步骤计划,以解决复杂的问题。GitHub工作流集成:Jules可以与GitHub工作流无缝集成,允许开发者直接在GitHub上接受、审查和合并Jules生成的代码。自然语言处理:Jules能够理解自然语言描述的问题,并据此生成代码解决方案。开发者控制:开发者可以完全控制审查和调整Jules创建的解决方案,然后再选择将其生成的代码合并到他们的项目中。Jules目前仅向一小部分测试者开放,预计2025年初将实现更广泛的访问。目前如果要使用的话需要访问Google Labs官网,申请成为Jules的受信任测试者,按照官网提供的指南安装Jules插件到你的开发环境中。谷歌已计划将类似功能整合到其开发生态系统中,包括Android Studio和Chrome DevTools。Jules与其说是一个编码助手,但背后是谷歌打造能够自主运作的AI代理的更大愿景。
游戏及其他领域的AI代理
Google DeepMind一直有使用游戏来提升AI模型在规则遵循、规划和逻辑方面能力的传统。上周推出的Genie 2模型就可以从单张图像生成无限多样的可玩3D世界。延续这一传统,DeepMind利用Gemini 2.0构建了能够在视频游戏中帮助玩家导航的代理。这些代理可以根据屏幕上的动作实时分析游戏情况,并提供下一步行动的建议。
DeepMind正与领先的游戏开发商如Supercell合作,探索这些代理的实际应用。通过测试,他们评估这些代理在不同类型游戏中的表现,从策略游戏《部落冲突》到模拟经营类游戏《Hay Day》,看它们如何解读游戏规则和应对挑战。
除了作为虚拟游戏伴侣,这些代理还能接入Google Search,为玩家提供丰富的在线游戏知识资源。这意味着玩家不仅可以获得游戏内的即时建议,还能访问广泛的外部信息,进一步提升游戏体验。
在物理世界中探索Gemini 2.0的代理能力
除了在虚拟世界中探索代理能力,Google还在尝试将Gemini 2.0的空间推理能力应用于机器人技术,以帮助在物理环境中提供协助。尽管这一领域仍处于早期阶段,但公司对这些技术的潜力感到乐观。(更多关于这些研究原型和实验的信息可以在labs.google上找到)
负责任地构建代理时代的技术
随着Gemini 2.0 Flash和一系列研究原型的推出,Google得以在AI研究的前沿测试和迭代新的功能,最终目的是使公司的产品更加有用。在开发这些新技术的过程中,Google也非常的关注AI代理在安全性和隐私方面带来的诸多问题。
为了确保技术的安全与可靠,Google采取了渐进式的开发方法:
内部审查:通过与责任和安全委员会(RSC)合作,识别并理解潜在风险。自动评估与训练数据生成:利用Gemini 2.0的推理能力改进AI辅助红队测试方法,不仅能检测风险,还能自动生成评估和训练数据来缓解风险,从而更高效地优化模型的安全性。多模态复杂性管理:随着Gemini 2.0的多模态能力增加输出的复杂性,Google将继续评估和训练模型处理图像和音频输入及输出的能力,以提升安全性。用户隐私保护:通过Project Astra,研究如何防止用户无意间与代理共享敏感信息,并已内置隐私控制功能,让用户可以轻松删除会话记录。防止恶意指令:借助Project Mariner,确保模型优先响应用户指令而非第三方尝试注入的提示,能够识别并阻止来自外部来源的潜在恶意指令,防止欺诈和网络钓鱼攻击。Google AI Studio 是一个用于使用生成模型进行原型设计的集成开发环境 (IDE),利用 Google AI Studio,我们可以快速尝试各种模型,使用不同的提示进行试验
Google AI Studio 提供了多种提示接口,适用于不同的用例:
第一个,聊天提示:使用聊天提示打造对话式体验。这种提示方法允许多次输入和响应轮次来生成输出。
第二个,结构化提示:借助这种提示方法,您可以提供一组示例请求和回复,引导模型输出。如果您需要更好地控制模型输出的结构,请使用此方法。
第三个,借助 Google AI Studio,咱还可以通过调优的方式来改进模型对特定任务的回答
Google还提供了很多可以帮助我们更高效与AI交互的参考资料,比如下面这个提示词库!
https://ai.google.dev/gemini-api/prompts?keywords=prompt&hl=zh-cn
还有下面这个Gemini API 实战宝典!
https://ai.google.dev/gemini-api/cookbook?hl=zh-cn
Create Prompt
在这个模块与Gemini聊天完的内容会自动存储到用户自己的prompt library中,作为常用对话提示词来使用
这里给了几个示例case
下一个形状是什么? 给定一系列形状,猜测下一个形状是什么。音频分离 转录带有说话者详情和时间戳的音频。寻宝游戏 创建一个寻宝游戏概念的精选列表。可以参考这些任务发起对Gemini的对话,比如我选择了第二个,直接就可以开始做音频转录了
也可以进行基本的对话提问,提示词的话可以参考上面官方出品的教程
Stream Realtime
这里比起Create prompt更多的是可以通过多模态实时API与Gemini 2.0使用文本、语音、视频或屏幕共享进行实时交互。甚至可以使用麦克风与Gemini开始实时对话,使用网络摄像头分享你正在查看的内容,并获得实时反馈,也可是分享你的屏幕,让Gemini看到你正在做什么,直接发起对话
Starter Apps
再这个目录下可以通过尝试一些入门应用程序来体验Gemini的功能,在GitHub上克隆它们以启动您的下一个项目。
第一个,空间理解:上传一张照片,将2D或3D空间分析与推理相结合。让双子座给你物体、文字等的位置。
第二个,视频分析仪:一个交互式视频播放器,可以让你总结、描述场景、提取文本、搜索对象等。
第三个,地图管理器:使用Gemini和谷歌地图API探索世界各地。让双子座为你找到有趣的地方等等。
比如第一个,可以选择任意一张图片进行提问,让Gemini进行回答
右上角可以进入到Gemini的小型应用程序的集合starter apps仓库,该存储库包含AI Studio入门应用程序的源代码,,展示了如何使用Gemini创建交互式体验。
目前,这些应用程序是为在AI Studio中运行而构建的,之后Google或许会使用Gemini API将它们更新为独立运行,有点像是小的项目孵化。
Tune a Model模型微调
主内容区域首先是选择数据源,我们可以从现有的结构化提示或通过导入Google Sheets或CSV文件来调整模型。这里官方建议建议使用100-500个示例来微调模型。
Create a Structured prompt是用来创建结构化提示的按钮,点击会路由到用户自己的提示词管理界面
Select a data source是选择数据源的下拉菜单,也可以通过Import导入数据的选项。
Model是选择基础模型,当前选择的模型是只有models/gemini-1.5-flash-001-tuning。高级设置中的内容:
Tuning epochs:调整轮次,当前设置为 1。调整轮次是指模型在训练数据上进行完整遍历的次数。
Learning rate multiplier:学习率乘数,当前设置为 1。学习率乘数用于调整模型训练过程中的学习率。
Batch size:批次大小,当前设置为 4。批次大小是指每次训练时使用的数据样本数量。
Prompt Gallery提示词库
这里有很多的官法规示词示例,帮助用户参考来创建自己的提示词,提示类型涵盖了多种应用场景,包括音频处理、视频问答、食谱创建、数学教学、练习题生成、寻宝游戏、单元测试和几何问题解决。通过这些提示,用户可以更有效地与Gemini模型进行交互,解决各种实际问题。
来源:燕山派侃科技