摘要:在AI大模型方面,发布了Gemini 2.5 Pro、扩散语言模型Gemini Diffusion、视频生成模型Veo 3+ Flow应用、图像生成模型Imagen 4等。在硬件端,分别与三星、Xreal发布了Android XR头显、AR智能眼镜等。在搜索端
电子发烧友网报道(文/莫婷婷)北京时间5月21日,谷歌2025 Google I/O开发者大会正式召开,从其发布的新品来看,这可以说是一场AI盛会。
在AI大模型方面,发布了Gemini 2.5 Pro、扩散语言模型Gemini Diffusion、视频生成模型Veo 3+ Flow应用、图像生成模型Imagen 4等。在硬件端,分别与三星、Xreal发布了Android XR头显、AR智能眼镜等。在搜索端,发布了AI Mode搜索模式、Search Live等。
谷歌宣布新的Gemini订阅计划:AI Pro用户定价月付19.99美元(折合人民币约144元),就能够使用Veo 2、Gemini 2.5 Pro等入门级产品;AI Ultra用户定价月付249.99美元(折合人民币约1804元),可一次性获得Veo 3的无限访问权限、使用Gemini 2.5 Pro深度思考模式等多项高级功能。
从软件到应用,谷歌的AI生态已经越来越成熟,其AI大模型以及相应的服务也将越来越强大。
自上届Google I/O开发者大会以来,谷歌已经宣布了十几种模型的突破,并且发布了20多款AI产品和功能。自第一代Gemini模型发布以来,Gemini模型的Elo分数上升了300多分。此外,在AI代码编辑器Cursor上,Gemini 2.5 Pro是今年增长最快的模型,能够实现每分钟产出数十万行可接受的代码。
谷歌DeepMind创始人兼CEO戴密斯·哈萨比斯表示,Gemini 2.5 Pro是谷歌有史以来最智能的模型,也是全球最强大的基础模型。就在两周前,谷歌发布了Gemini 2.5 Pro的预览版,因此开发者可以立即使用并构建它,例如将草图转化为交互式应用程序、模拟3D城市等。
Gemini 2.5 Pro模型也已经接入LearnLM(专为学习场景微调的模型),提升了Gemini 2.5 Pro在学习场景的能力。
在大会上,谷歌还发布了Gemini 2.5 Flash的升级版。Gemini 2.5 Flash是一款轻量化AI大模型,具备速度更快、低成本的优势。Gemini 2.5 Flash的升级版提升了推理、代码和长上下文理解的能力,效率提升了 22%。Gemini 2.5 Flash将在6月初上市,Pro 版本也会紧随其后。
Gemini 2.5 Pro 新增“思考预算”控件、更好的成本控制。Gemini 2.5 Pro和Gemini 2.5 Flash还支持原生音频输出,可以轻松地在24种不同语言之间切换,且能够区分说话者背景声音,建立更自然的对话体验。在安全方面,谷歌表示,通过增强安全防护,Gemini 2.5 Pro和Gemini 2.5 Flash是谷歌迄今为止最安全的型号。
谷歌还发布了全新的模型:扩散语言模型Gemini Diffusion,其利用并行生成来实现极低的延迟,生成速度比Gemini 2.5 Flash还快5倍,编码能力与之相当。
另外,谷歌一直在探索Gemini 思维、推理能力的前沿技术,基于使用 AlphaGo 的经验,谷歌推出了Gemini 2.5 Pro "Deep Think"(深度思考模式)模型,采用了类AlphaGo的并行推理技术,能够实现更加深入的思考,提升了Gemini 2.5 Pro 在学术与推理基准上应用体验。在美国数学奥林匹克2025测试和Live Codebench编程测试取得领先的地位。
在过去十年,谷歌为现代AI时代奠定了很多技术基础,从开创性推出Transformer等大模型架构支撑着所有大语言模型,到AlphaGo 和 Alphazero 等代理系统。谷歌也将持续加大基础研究的广度和深度,以实现通用AI所需的下一个突破。
谷歌与OpenAI的AI竞争,由于ChatGPT的出现,让OpenAI反超谷歌一局,谷歌的搜索业务和AI产品都大受打击。如今Gemini AI的重磅更新,是谷歌夺回技术和市场高地的关键。谷歌表示,Gemini AI已经是最好的基础模型,但公司的目标是:努力拓展Gemini AI,使它成为“世界模型”。
谷歌在AI技术竞赛中找回自己的节奏,选择主动出击、引领行业。除了Gemini AI,本次 I/O 大会的重磅:全新的AI搜索模式AI Mode。AI Mode模式也被认为是谷歌的一场“革命”,用AI机器人替代原来的搜索功能,将聊天机器人的对话能力嵌入搜索体验中,支持继续追问。该模式将在美国推出。
从技术路径看,AI Mode模式以Gemini 2.5 Pro为底层模型,引入“查询扇出(query fan-out)”技术,可跨子主题和多个数据源并行处理,再汇总成一段多模态长答复。技术路径与DeepResearch相似。但也是谷歌试图通过引入更先进的多模态数据处理能力、优化用户体验以及加强,反击OpenAI的必要之举。
当前,AI技术产业正在以超过预期的速度发展,不仅仅是谷歌和OpenAI。苹果也在加速进入这个赛道,例如苹果推出了Apple Intelligence。业内消息显示苹果也在推进AI技术的布局,未来或将允许第三方开发者使用其AI模型编写软件。这将成为苹果推动新应用的开发,成为苹果在推动AI领域赶超竞争对手的“底牌”。这一消息将在6月9日的全球开发者大会(WWDC)上有所答案。
除了大模型,谷歌此次Google I/O开发者大会的亮点还有“杀回”智能眼镜行业。谷歌再次介绍了Android XR、Wear OS 6这两大操作系统,并展示了两款智能眼镜产品。
谷歌在智能眼镜项目上也有着超过10年的经验,它不仅是这一领域的开拓者,也是不断演进的见证者。从2015年的第一款智能眼镜Google Glass(消费版)至今,谷歌在这个领域经历了起起伏伏。谷歌并没有放弃对智能眼镜的追求。相反,它利用这段时间积累了丰富的经验,并结合了最新的AI技术,以全新的视角重新审视这个市场。
一个有用的AI助手能够让你的生活更轻松,但是这种新形式能否让你以新的方式体验AI助手呢?谷歌表示,这正是我们推出Android XR的原因。
Android XR是谷歌联合三星、高通打造的首个专为 Gemini 时代打造的 Android 平台,支持不同形态的设备,包括VR头显、AR智能眼镜等,包括支持VST(视频透视)和OST(光学透视)在内的多样化沉浸式设备。开发者可以基于Android XR定制自己的产品。
自去年发布Android XR开发者预览版本以来,已有数百名开发者为该平台进行开发,并且手机、平板电脑应用程序都可以运行。
在大会上,谷歌演示了基于Android XR的智能眼镜功能,它支持实时翻译、图像记忆、地图导航、拍照等功能。就在演示实时翻译时,Gemini卡住,导致一副智能眼镜的实时窗口死机。谷歌表示,“这是一个非常冒险的演示,但我们会尝试一下。”这也说明,真正无缝衔接的AI虚拟世界还有一段距离,谷歌也在直面这个过程中的问题。
在大会上,谷歌介绍了两款基于Android XR打造的AR设备,第一款是与三星合作的Project Moohan,这是一款谷歌眼镜原型机,支持全彩显示,能够通过语音实现AI交互,搭载摄像头能够提供图像识别功能。
谷歌宣布,公司与三星的合作关系将会提升至新的水平,将Android XR从头显拓展至智能眼镜领域,双方也已经在合作开发软件和参考硬件平台方面取得进展。
第二款是Project Aura,这是谷歌联合XREAL共同推出的专为 Android XR 平台打造的旗舰级 AR 眼镜,Project Aura 基于 OST(光学透视)技术路线。这款产品的发布也标志着AR产业正式跨入“安卓时刻”。
Google副总裁、Android XR 负责人 Shahram Izadi介绍,表示,通过平台开放性与 XREAL 在轻量化、便携XR 硬件上的领先能力结合,我们正在推动空间体验进入更直观、更可及的 OST 时代,这是我们生态系统发展史上的重要时刻。
XREAL表示,此次联合发布,集结了Google、XREAL与高通三方技术实力,形成覆盖“平台-硬件-芯片”的黄金铁三角。
这一次,我们可以相信谷歌在经过多年的技术投入之后,不会轻易放弃AI智能眼镜市场。从2025 Google I/O开发者大会可以看到,谷歌在智能眼镜行业将不再是单打独斗,包括与上游芯片企业合作、与下游智能眼镜品牌合作。通过软件、硬件赋能,加上谷歌在安卓 近数十亿用户基础,谷歌正在拥抱一个更大的智能眼镜生态。
谷歌认为人工智能的机遇是巨大的,而这取决于开发人员、技术建设者和解决方案商,以确保它能被更多人使用。
来源:核芯产业观察