摘要:WaveForms开发端到端音频大模型,直接处理音频实现实时交互,不经过语音转文本再转语音的传统步骤;
生成式AI
一、 ChatGPT Voice之父创办语音模型公司,种子轮4000万美金
1. WaveForms开发端到端音频大模型,直接处理音频实现实时交互,不经过语音转文本再转语音的传统步骤;
2. 模型通过标记音频片段的情绪特征来识别和回应情感,而非真正"理解"情绪;
3. 核心技术将音频信号分解为标记后用专门音频变换模型处理,实现更低延迟的对话体验。
二、 Kimi 发布k1.5思考模型对标o1满血版,还有完整技术报告
1. Kimi k1.5通过long2short强化学习,将长CoT模型的推理能力转移到短CoT模型,显著提升了token使用效率;
2. 采用部分回滚技术处理长CoT特性,通过多次迭代分解长响应为片段,降低计算开销;
3. 实现训练和推理任务的混合部署,利用Kubernetes Sidecar容器共享GPU,转换时间不超过1分钟。
三、 腾讯3D生成大模型2.0,自动绑骨,分钟级生成游戏3D资产
1. 混元3D 2.0采用几何与纹理解耦生成技术,可实现超高精度白模生成,并支持文本/图像引导的纹理生成;
2. 支持端到端生成低多边形模型,根据物体复杂度自适应生成几百至数千面三角mesh,保持细节同时降低面数;
3. 具备自动骨骼绑定功能,可对T-pose姿态人物模型一键绑定骨骼并生成动画。
四、 几十个测试后,发现海螺语为什么能够与 ElevenLabs 掰手腕
1. T2A-01语音模型支持17种语言合成,采用千万小时级音频数据训练,在相似度和错误率评测上接近真实录音水平;
2. 具备多层次情感表达能力,可分段控制不同情绪,支持300+预置音色,并可自定义调节音色细节和场景效果;
3. 在处理大量同声词时展现出较强语义理解能力,能准确区分字词发音,实现自然的语调和节奏控制。
五、 美图WHEE「AI海报」功能即将上线啦!只需要你一句话
1. WHEE AI海报功能支持一键生成海报,并提供中文字体支持,可自由调整文字排版位置;
2. 内置电影、电商、自媒体、线下活动四大场景的模板,每个主题提供多套样式选择;
3. 集成免抠素材生成功能,支持自定义生成和已有素材转换,可选择多种风格效果。
六、 不到4小时,谷歌Gemini写完10万字商业战略书籍,全AI
1. Gemini Flash 2.0-exp处理1.23亿请求token,生成92万响应token,通过1152次API调用完成10万字书籍;
2. DeepWriter采用writeCircle写作机制,每个周期包含起草、分析、重写三个独立系统节点;
3. 系统使用LaTeX排版,自动生成文本、图表,输出AI生成概率仅为9.78%的高质量内容。
七、 Adobe、加大推出音乐模型DITTO-2,可精准控制强度、旋律
1. DITTO-2集成一致性模型(CM)和一致性轨迹模型(CTM)两种蒸馏技术,实现扩散过程的快速跳跃,效率提升10-20倍;
2. 采用ITO推理时优化技术,通过特征提取、匹配损失函数和梯度下降算法实现实时控制调整;
3. 训练成本低,仅需A100 GPU训练30小时,支持文本、拍手生成音乐,可精确控制强度、旋律和音乐结构。
八、 智谱清影 AI 视频工具获 2.0 更新,支持画面主体进行大幅度运动
1. 模型结构、训练方法、数据工程全面升级,图生视频基础模型性能提升38%;
2. 新增大幅度运动控制功能,在保持画面稳定性同时支持主体大范围运动;
3. 清影2.0集成在智谱清言平台,普通用户可免费试用,会员享有快速通道且不消耗积分。
前沿科技
九、 哥大团队细胞「基础」模型,揭示213种人类细胞调控语法
1. GET基础模型利用213种人类胎儿和成人细胞的染色质可及性数据与序列信息,实现实验级转录预测精度;
2. 模型采用类ChatGPT训练方式,从多细胞状态学习调控语法,可识别顺式调控元件和胎儿血红蛋白上游调节剂;
3. 基于GET预测的共调节信息,构建人类TF和辅激活因子结构交互目录,揭示PAX5与核受体家族TF的淋巴细胞特异性互作。
报告观点
十、 Pytorch负责人押注复合AI:行业逐渐转向强调模型的推理能力
1. 行业从依赖Scaling Law转向关注推理能力,比如Fireworks通过FireOptimizer实现延迟、成本、质量三维平衡;
2. 采用多LoRA技术让多个适配器共享基础模型,一个基础模型支持百至千个LoRA,显著减少内存占用;
3. 开发分布式推理引擎,根据硬件特点和负载差异分配任务,实现全栈优化和跨地域部署。
AI50节选
👇订阅下方合集,获取每日推送
来源:腾讯研究院