试图干翻所有 AI 公司,谷歌全家桶到底有多硬核?

B站影视 内地电影 2025-05-31 22:30 1

摘要:开发者可以直接用这套语音能力做出更自然的互动体验,而且还能调节语速、语调、口音,甚至模拟不同风格的说话方式。

开发者可以直接用这套语音能力做出更自然的互动体验,而且还能调节语速、语调、口音,甚至模拟不同风格的说话方式。

与此同时,谷歌还上了多扬声器的文本转语音功能,能模拟两个人对话,支持 24 种语言,现在已经在 Gemini API 上能用了。

除了“能说”,Gemini 现在也更“能干”了。

谷歌把原本只在实验项目里的 Project Mariner 加到了 Gemini API 和 Vertex AI 里,AI 可以一次做 10 件事,还能学会自动完成重复的任务。

为了方便开发者,Gemini 2.5 引入了 Thought Summaries 功能,能清晰展示模型的思考过程和调用细节。

同时配备 Thinking Budgets,方便控制模型思考时使用的 token 数量,避免资源浪费。

Gemini SDK 也兼容 MCP 工具,方便与开源软件集成。

谷歌这波升级不止是做加法,还在试着改变游戏规则。

他们推出了一个新模型叫 Gemini Diffusion,完全不用 Transformer 架构,跑得更快,用起来更省。

虽然目前表现刚和之前的 Flash-Lite 持平,但速度快了五倍。

Transformer 用了这么多年,算力又贵又慢,但苦于没啥替代手段,大家只能“将就着用”。

如果这套扩散模型能继续打磨下去,说不定真能成为新的主流架构。

大模型之外,谷歌在多模态生成这块也疯狂上新,直接覆盖图像、视频、音频全赛道,真的是“全都要”。

先说图像。最新上线的 Imagen 4,不仅细节超清晰,支持写实和抽象风,能做贺卡、海报,速度还比上一代快了 10 倍。

现在已经在 Gemini App、Whisk、Vertex AI 等多个平台上线。

图像有了,视频当然也不能缺。Veo 3 带来了原生“音画同步”生成,不光能做高质量视频,甚至连人物对白、背景音乐、环境音都能一起生成。

文本讲故事,几秒出片,连口型都能对上,像是开了电影拍摄外挂。

Veo 3 已向美国 Ultra 用户开放,企业用户也可通过 Vertex AI 使用。

音频方面,Lyria 2 同样不简单。现场演示的一段秘鲁风格舞曲节奏明快、旋律自然,完全听不出是 AI 做的,电吉他、鼓点、贝斯配合得一气呵成。

多个模型齐发还不够,谷歌还推出了电影制作工具 Flow,整合了 Imagen、Veo 和 Gemini 的能力。

只需用自然语言描述故事,还能导入角色素材,Flow 就能一键生成电影级的镜头,角色、场景还能跨镜头连续复用,创作流程更像是在“搭乐高”一样简单。

据介绍,美国 Google AI Pro 和 Ultra 用户可优先体验 Flow。

而在一边搞底层技术革新的同时,谷歌在 AI 落地应用上也可圈可点。

全新上线的 AI UI 设计工具 Google Stitch,老狐看完只想感叹一句:设计师的饭碗,又不稳了。

只需要用自然语言描述需求,它就能自动生成完整的网页或移动端界面,连 HTML/CSS 代码都能一起打包好,甚至一键导出到 Figma,直接接着做交互图和上线。

不像很多产品还卡在“排队申请内测”,Stitch 是直接全量开放的,现在就能玩,地址在这儿 👉stitch.withgoogle.com

有网友拿创客贴首页随手截了张图,丢进去随口打了句“还原页面”,几秒钟后,AI 不仅给出了 HTML 文件,跑起来后还原度居然高得离谱。

其实这种风格的产品更新,在谷歌今年的布局里并不少见。

很多人原以为,AI 会把传统搜索打废,但谷歌的做法恰恰相反:它干脆把搜索重做了一遍。

这次在美国先上线的全新 AI Mode,就是一个结合多模态和推理能力的搜索新形态。

这不是简单在原有引擎上加个大模型接口,而是基于 Gemini 2.5,重构了整个搜索逻辑。

它背后采用的是一套叫 query fan-out 的技术,简单来说就是能自动把你提的问题拆解成多个子任务,再同时搜索、整合信息。

谷歌还提前预告了 AI Mode 的几项重磅功能:

比如 Deep Search,AI 会自己发起上百次搜索,生成带引用的深度报告。

Search Live 支持实景互动,你对着镜头提问,它能看图识物并语音回答。

还有“帮我买票”这种 Agent 功能,能自动跨平台比价、下单。

除了查信息、买门票,这波升级对购物体验也进行了全面改造。

新的 AI Mode 把 Gemini 的智能能力和 Google 的购物知识图谱结合,整合了 500 亿+ 商品信息。

用户只需要告诉它预算、颜色、尺寸,它就能快速帮你筛选、比价、下单。

最后,至于大家关心的价格,Google 这次也端出了“大杯”和“超大杯”套餐:AI Pro 和 AI Ultra,顶配 Ultra 直接开价 249 美元/月。

听起来不便宜,但服务确实顶:几乎不限量的使用额度,加上 30TB 的 Google Cloud 云存储,性价比对得起这个价,尤其是对那种靠 AI 吃饭、挣美元花美元的用户来说,比很多国内会员都值。

不过谷歌也清楚,这年头用户忠诚度稀缺,隔壁 Perplexity、OpenAI、微软天天虎视眈眈,不追着更新点杀手锏,用户分分钟“人走茶凉”。

好在谷歌一直都知道,自己最大底牌就是那些用户天天离不开的工具。AI用得再花哨,最后还得回到搜索、Gmail、Docs 这些刚需里来。

谷歌干脆一句话:你最常用的,全都给你装上AI。

参考资料:

来源:小王论科技

相关推荐