摘要:ElevenLabs发布新版TTS模型Eleven v3,支持70多种语言,声称是"迄今为止最具表现力的文本转语音模型";
生成式AI
一、 OpenAI升级高级语音功能,更像真人,外加随身翻译官
1. ChatGPT高级语音功能升级,声音更自然,能表达情感和语调变化,使交流更具人性化;
2. 新增实时翻译功能,支持跨语言对话,可在国际环境中充当同声传译,无缝衔接对话;
3. 该功能已向所有付费用户开放,用户只需点击输入框中的语音图标即可使用。
二、 独角兽ElevenLabs发布Eleven v3:狠狠拿捏情感控制
1. ElevenLabs发布新版TTS模型Eleven v3,支持70多种语言,声称是"迄今为止最具表现力的文本转语音模型";
2. 引入音频标签系统,可精确控制情感表达,包括情感标签、音效标签和特殊标签,标点符号也影响情绪传递;
3. 支持多人对话功能,可为不同角色分配不同语音,英语效果优于中文,目前处于内测阶段。
三、 OpenAudio S1上线!一句话指令让AI声优演出所有情绪
1. Fish Audio推出OpenAudio S1声音克隆模型,支持通过指令精确控制语音情感、语气和节奏,表现力媲美专业配音;
2. 采用双自回归架构和RLHF技术,支持13种语言,包括中英日等,在TTS-Arena排名第一;
3. 定价每百万字节15美元(约0.8美元/小时),适用于内容创作和配音领域,未来计划推出版权音色注册与分成机制。
四、 全球圈粉6000万PixVerse国内版「拍我 AI」一手实测
1. 爱诗科技推出PixVerse国内版"拍我AI",海外已积累6000万用户,月活1600万,在美国曾超越TikTok位列总榜第四;
2. 产品提供丰富功能,包括百种模板、首尾帧、多主体、运镜、视频重绘等,生成速度快(不超过1分钟),底模已升级至PixVerse V4.5;
3. "拍我AI"兼顾"好玩"与"好用"特性,既能让普通用户通过简单模板快速体验创作乐趣,也满足专业创作者对功能完整性和效率的需求。
五、 智源全新悟界系列大模型,加速数字世界、物理世界融合
1. 智源研究院发布全新悟界系列大模型,旨在促进AI从数字世界迈向物理世界,包含四款大模型覆盖微观生命到具身智能领域;
2. 悟界系列包括原生多模态世界模型Emu3、脑科学多模态基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0和具身大脑RoboBrain 2.0、全原子微观生命模型OpenComplex2;
3. 智源已开源约200个模型和160个数据集,全球总下载量超6.4亿次,构建了覆盖模型、算法、数据、评测、系统的大模型开源技术体系。
六、 全球30名顶尖数学家秘密集会围剿AI,惊呼已接近数学天才
1. 30位顶尖数学家在UC伯克利对OpenAI的o4-mini进行秘密测试,发现AI能解决约20%的教授级数学难题,表现超越多数参赛团队;
2. 数学家Ken Ono承认AI展现出接近数学天才的水平,能在几分钟内解决人类专家需要数周甚至数月才能完成的复杂问题;
3. 陶哲轩已在社交平台分享AI在数学研究中的惊人进展,如与AlphaEvolve合作突破18年未解的和差集指数问题,预示AI将成为数学研究中值得信赖的合作者。
前沿科技
七、 Figure AI人形机器人物流工作最新视频,实习3个月转正
1. Figure AI人形机器人Helix在物流仓库工作三个月后实现重大突破,能处理硬质纸箱、塑料袋和扁平信封等多种包裹类型;
2. 机器人性能显著提升:包裹处理速度从5.0秒/件提高到4.05秒/件,条形码扫描成功率从70%升至95%,并展现出自适应行为如拍平褶皱包裹;
3. 突破归功于三大技术增强(视觉记忆、状态历史、力反馈)和训练数据规模扩展(从10小时增至60小时),机器人还能通过"视觉条件化"实现与人类协作递物。
报告观点
八、 苹果:DeepSeek、o3、Claude等并没有真正的推理能力
1. 苹果研究质疑推理模型真实能力,认为DeepSeek、Claude等只创造思考印象而非具备稳定思维过程;
2. 通过汉诺塔等谜题测试发现,推理模型面对高复杂度问题会出现"断崖崩溃"和"思考退化",甚至无法执行给定算法;
3. 研究显示三种性能区间:简单问题标准模型更优,中等复杂度推理模型占优,高复杂度两类模型均失效。
九、 OpenAI:人们正对AI产生依赖,模型感知意识将再增强
1. OpenAI负责人Jang首次回应人机情感问题,承认用户正对ChatGPT产生依赖,认为随着AI系统融入更多生活场景,这种情感纽带将加深;
2. 文章将AI意识分为"本体论意识"和"感知意识"两个维度,预测即使用户知道AI无意识,感知意识仍将随模型智能化增强;
3. OpenAI寻求产品设计平衡点:让ChatGPT保持温暖体贴但不追求情感连接,将扩展评估、加深研究并公开分享发现。
十、 Lex Fridman 对谈谷歌 CEO:追上进度后,谷歌的下一步
1. 谷歌CEO Pichai表示随着AI模式功能成熟将迁移到主搜索页面,AI概览已提升用户满意度并推动产品增长;
2. 谷歌内部AI工具生成约30%代码,提升工程效率10%,Pichai认为AI将让程序员专注更具创造性的工作;
3. Pichai认为我们处于非均衡人工智能阶段,2030年前难达成AGI,他相信AI具递归自我改进能力,将成为比电更重要的科技发明。
👇加入AGI数据库,AI智能问答
👇订阅下方合集,获取每日推送
来源:腾讯研究院