摘要:OpenAI 正在把版图从文本和图像继续推向“声音”。多名知情人士透露,这家公司正研发一款全新的 AI 音乐生成系统,目标是让用户用一句文字描述或一段示例音频,就能自动生成伴奏、配乐甚至完整歌曲。据报道,OpenAI 还与茱莉亚音乐学院的学生合作,由学生为乐谱
OpenAI 正在把版图从文本和图像继续推向“声音”。多名知情人士透露,这家公司正研发一款全新的 AI 音乐生成系统,目标是让用户用一句文字描述或一段示例音频,就能自动生成伴奏、配乐甚至完整歌曲。据报道,OpenAI 还与茱莉亚音乐学院的学生合作,由学生为乐谱进行精细标注,以此积累高质量训练数据。这一计划被视为对标当下最受关注的音乐生成初创公司 Suno 和 Udio,显示 OpenAI 想把生成式 AI 的能力延伸到商业可用的音轨生产,而不仅是写文案、画图。OpenAI 尚未决定这项功能将并入 ChatGPT、接入视频生成模型 Sora,还是单独发布,官方目前未置评。
从应用角度看,这套音乐模型被设想成一个“即插即用”的音频制作人:比如为现有声轨自动补上吉他线条,为短视频或广告片实时生成背景配乐,甚至一键产出一条洗脑广告歌。广告、短视频、电商内容制作方,被认为是最直接的首批用户,因为他们需要大量风格统一、节奏明确、版权可控的配乐素材。
然而,音乐也是目前监管和诉讼风险最高的生成式赛道。美国唱片业协会(RIAA)已在联邦法院起诉Suno与Udio,指控两家公司为训练模型“成体系地复制了海量受版权保护的录音作品”,并能产出与知名歌手或经典曲目极为接近的成品。唱片公司阵营包括环球音乐、索尼音乐、华纳音乐等大型唱片集团,诉求包括每首作品最高可达15万美元的法定赔偿,整体索赔额被形容为可能达到数十亿美元量级。被告方面则坚持辩护,称其服务是“变形式创作”,属于合理使用,而唱片公司则反驳这是“规模化挪用艺术家一生心血”。这场官司将直接定义:AI音乐公司能否在未获授权的情况下,用受版权保护的曲库来训练模型。
这也是外界关注 OpenAI 的关键风险点:如果它要把音乐生成功能推向市场,就必须证明训练数据是“干净”的,或者提前与唱片公司达成授权协议;否则,它可能在上线前,就面临与 Suno、Udio 类似的法律战。
进军音乐并非孤立动作,而是 OpenAI 多模态战略的下一步。过去两年,OpenAI 先后把生成式能力从文本扩展到图像、语音和视频:一方面,GPT-4o 这类“多模态”模型已经可以在同一系统里理解文字、图像和音频,并进行实时语音互动;公司围绕这一能力推出所谓 Realtime API,让开发者为客服、助理等场景搭建几乎同步回应的语音代理,甚至可以通过电话拨入对话。
另一方面,OpenAI 的视频生成模型 Sora(以及后续迭代版本 Sora 2)可以根据文本提示生成高保真、最长约一分钟的连贯视频画面,并被官方描述为“让模型学习并模拟物理世界”的一步。最新版本强调更高的物理一致性、更细的镜头控制,甚至加入同步音效与对白的能力,并开始以独立应用的形式面向创作者群体开放。在业界看来,这使 OpenAI 不只是提供图像或短片段,而是在向“整支成片”的广告、分镜预演、社媒短视频生产线渗透。
将这些元素拼在一起可以看到一条清晰路线:文本由 ChatGPT 生成脚本和台词,Sora 负责画面,Realtime API 生成并配音,音乐模型补上BGM、伴奏和广告歌。对广告主、内容创作者乃至游戏工作室来说,这意味着内容生产链条被进一步自动化——而版权,尤其是音乐版权,正在成为这条链条上决定性的一环。OpenAI 押注音乐生成,既是技术延伸,也是对商业闭环的最后一块拼图。
中国网电商中国综合,部分素材来源科创板日报
编辑:ST
联系邮箱:ds@china.com.cn
来源:视讯中国一点号
