腾讯研究院AI速递 20250522

摘要：基于V2A（Video-to-Audio）技术，模型能将视频像素转化为语义信号，配合文本提示生成匹配音频；

生成式AI

一、真碾压Sora！谷歌Veo 3直接「开口说话」物理遵循性更好

1. Veo 3实现音画同步生成功能，能根据提示词同时生成视频画面、对白、唇动和音效，实现完整的视听体验；

2. 基于V2A（Video-to-Audio）技术，模型能将视频像素转化为语义信号，配合文本提示生成匹配音频；

3. 模型支持长提示词理解和多步骤事件流生成，但目前仅限8秒视频，面向美国Ultra订阅用户开放，定价249.99美元/月。

二、 12秒1万token！谷歌文本「扩散模型」Gemini Diffusion

1. Gemini Diffusion采用扩散技术生成文本，速度达2000token/秒，12秒可生成1万tokens；

2. 区别于传统自回归模型从左到右生成，通过逐步优化噪声学习生成输出，可快速迭代和错误纠正；

3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美，支持非因果推理，能一次生成整个标记块。

三、跻身竞技场全球前八，腾讯混元加速迭代，模型矩阵全面升级

1. 腾讯混元TurboS排名全球前八，引入长短思维链融合技术后，理科推理提升10%，代码能力提升24%，竞赛数学提升39%；

2. 基于TurboS新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice，前者理解速度提升50%，后者语音通话延迟降至1.6秒；

3. 多模态领域全面升级：图像2.0实现毫秒级生图，3D v2.5提升几何精度，并承诺持续推进全系模型开源。

四、字节推出语音播客模型，秒生文本创作到双人对话式播客

1. 字节推出豆包·语音播客模型，基于流式模型实现文本到双人对话播客的秒级转化，支持热点内容快速生成；

2. 模型突破传统AI播客痛点，实现双人对话自然流畅、高度拟人的语音效果，并具备深度搜索功能，5秒可生成热点播客；

3. 支持灵感创作和超长文本转播客功能，将在豆包APP、PC端和扣子等产品陆续上线。

五、谷歌发布Flow AI剪辑工具：Veo3 与 Imagen4 驱动流程生产

1. FLOW是谷歌首个AI视频创作产品，支持Veo3视频生成，需在输入框设置选择"Highest Quality"可开启声音功能；

2. 提供三种生成方式：文生视频（仅支持英文提示词）、图生视频（支持首尾帧控制）、素材转视频（可用3张参考图+1张风格图）；

3. 具备视频剪辑功能，可调整分镜顺序、删除分镜、延长视频（需通过"跳转到"功能实现），最终可导出1080P完整视频作品。

六、刚刚，Google 眼镜「复活」了！，还有Android XR新进展

1. Google联合Xreal推出Project Aura智能眼镜，搭载Gemini 2.5 Pro和Project Astra，实现实时翻译、视觉搜索和多模态上下文理解；

2. 作为首个Gemini时代构建的Android平台，Android XR支持150多个国家45种语言，能通过双摄像头和多个麦克风实现强大的AI交互体验；

3. Google与Gentle Monster和Warby Parker合作开发时尚科技眼镜，注重隐私保护，但由于Gemini限制，国内用户或难以体验完整功能。

七、英伟达的新研究项目DreamGen，让机器人「做梦」修炼

1. 英伟达推出DreamGen项目，让机器人在神经网络生成的「梦境世界」中自主学习，通过生成大量带标签的神经轨迹实现技能掌握和泛化；

2. 项目在多种机器人上验证效果显著：类人机器人GR1成功率提升至46.4%，机械臂Franka提升至37%，SO-100提升至45.5%，实现了对陌生动作和环境的泛化；

3. DreamGen通过微调视频世界模型、生成平行世界视频、提取伪动作标签、训练机器人基础模型四大流程，将合成数据规模扩展至原始数据333倍。

前沿科技

八、 FaceAge登上「柳叶刀」！AI一张照片看穿你的真实年龄

1. Mass General Brigham团队开发的AI模型FaceAge，通过分析人脸照片预测生物年龄，在56,000多张60岁以上人群照片上训练，能评估癌症患者治疗预后；

2. 研究显示AI判定"显老"10岁的患者死亡风险增加11-15%，癌症患者平均比实际年龄老4.79岁，且当前吸烟者平均增加33.24个月衰老程度；

3. FaceAge目前存在局限性：训练数据主要基于白人面孔，整容、化妆等因素影响未知，且可能存在隐私和医疗伦理风险，距离临床应用仍有距离。

报告观点

九、微软CPO专访：AI时代产品经理的工作方式将彻底改变

1. 微软CPO认为Prompt正在取代传统PRD，成为AI时代构建产品的起点，并强调"品味"和"编辑能力"成为产品经理的关键能力；

2. AI时代的产品开发应着重于原型验证，从想法到Demo的时间缩短，但从Demo到全面上线时间变长，要避免过早设定指标，关注用户真实反馈；

3. 好的产品需满足三个关键转折点中的两个：技术层面飞跃、用户行为变化和商业模式变化。未来趋势是人与Agent协作，将重新定义产品体验和工作方式。

十、对话《超级智能》作者：AI若解决一切，我们为何而活？

1. 虽然人类需要关注当下问题，但也要思考长远未来："已解决的世界"（所有实际问题都由AI解决）可能在当代人有生之年出现，届时人类将面临意义和目标缺失的挑战；

2. 在这个世界中，人类不再需要为生计工作，但也失去了很多传统价值来源。解决方案可能是发展"人为目标"、培养精神层面的价值，以及与AI形成良性共存关系；

3. 正因为未来充满可能性和风险，当下是"目标的黄金时代"，我们应该积极解决现实问题，同时为人类在AI主导的未来中找到新的定位和意义。

来源：腾讯研究院

标签： gemini 腾讯播客速递研究院

本文地址：http://news.43b.com.cn/a/256880.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!

相关推荐