摘要:新加坡科技设计大学冷不丁扔出SonicMaster,一个能靠一句人话指令,就把各种音频质量问题统统搞定的生成式模型。
手机录的歌全是回声?剪视频背景音乐糊成一片?别急,这回真的有救了。
新加坡科技设计大学冷不丁扔出SonicMaster,一个能靠一句人话指令,就把各种音频质量问题统统搞定的生成式模型。
是的,不用再一个个折腾插件、调参数,甚至不需要懂啥是EQ、压缩、混响,你开口说“把回声弄小点”“人声再亮一些”,它就能实时把音频处理得明明白白。
音频处理,尤其音乐修复和母带处理,一直以来都是专业音频工程师的“密室技艺”。去混响、修削波、调均衡、扩声场……每个问题都得对应不同的工具和技巧。没几年经验,根本摸不清门道。
但现在,SonicMaster 直接把这道门槛拆了。专业的事,都不用专业的人来干了。
你不需要知道什么是“低切”什么是“高频激励”,你只需要像平时说话一样告诉它:“这里太闷了”“人声突出一点”“把背景回声降低”……它就能精准理解并执行。
其背后,是一套前所未有的“文本+音频”多模态控制机制。模型通过流匹配(rectified flow)在潜在空间中对音频进行修复,再借助FLAN-T5这类大语言模型精准理解用户指令。
平常我们遇到的音频问题,大致可以归为五类:
均衡(EQ)问题:太闷、太刺、人声被埋没、低频轰头……动态问题:音乐没冲击力、人声被压扁……混响问题:像在厕所里录的、回声太重、声音发虚……振幅问题:音量太小、录音削波爆音……立体声问题:声场狭窄、左右不平衡……以往你要搞定这些问题,得先后打开降噪插件、EQ、压缩器、混响器……一个调完调另一个,调完还不一定兼容。
而 SonicMaster 首次实现了一个模型同时处理所有这些质量问题。更离谱的是,它还能处理“多重并发症”——比如同时存在回声太重、人声又不清晰的情况。
你只需要说:“把回声降低,同时让人声更清晰。”它就能听懂,并做到。
这么能的模型,是怎么炼成的?
答案有点硬核——研究团队自己建了一个规模空前的高质量训练数据集。
他们从Jamendo平台选了58万首知识共享许可的音乐,涵盖10大流派组,包括嘻哈、电子、流行、摇滚等。然后通过五轮质量筛选,最终留下2.5万段30秒的高品质音频片段。
但这还没完。真正的关键是“降质-修复”对的构建。
团队为每段音频人工合成了7个损坏版本:包括4种单一降质、2种双重降质、1种三重降质。降质手法高达19种,覆盖EQ、动态、混响、振幅、立体声五大类。
比如:
加混响:模拟“小房间”“大厅”“真实房间”等混响特征;削波处理:故意把音频推爆,制造失真;EQ调整:模仿“太闷”“太亮”“人声突出”等频响问题;压动态:把音乐压得死死的,失去活力;转单声道:把立体声活活压成单声道……每合成一个损坏版本,就配上一句由专家编写的修复指令,比如:“减少空洞感”“增加亮度”“修复爆音”。
最终,数据集总共包含17.5万个音频-指令对。
模型效果到底怎么样?先听两个官方 demo:
原音频:
01-1795816_deg2,算泥,14秒
Prompt: "Increase the clarity of this song by emphasizing treble frequencies."
02-1795816_deg2_infer,算泥,15秒
原音频:
03-1505845_deg2,算泥,12秒
Prompt: "Make the audio smoother and less distorted."
04-1505845_deg2_infer,算泥,13秒
研究团队在多个维度对比了SonicMaster和传统处理方法,在EQ调整能力上,SonicMaster在所有属性上都显著优于基线模型。尤其是在“亮度”“空气感”“清晰度”这些高频细节的处理上,优势明显。
在修复削波和音量问题上,SonicMaster几乎做到了“无痕修复”,“感知明显改进”。
更让人服气的是它的泛化能力。不管是处理混响、修复动态,还是扩展立体声场,表现都不错。
光有客观数据不够,团队还做了大规模主观听感测试。结果显示,SonicMaster处理后的音频在“质量提升”“指令跟随度”“整体偏好”三个维度表现都很好。
SonicMaster的核心架构融合了两种前沿技术:多模态DiT(MM-DiT)和流匹配(Rectified Flow)。
音频先被编码进一个紧凑的潜在空间——这样模型不用处理原始的庞大数据量,大大提升了效率。文本指令则通过FLAN-T5大模型编码成向量表示。
关键一步在于:MM-DiT块把降质音频的潜在表示和文本指令嵌入进行融合,预测出一个“流速度”,指引音频如何从“损坏状态”流向“干净状态”。
比如,当用户说“减少混响”,模型就会抑制音频中的衰减尾部;如果说“增加亮度”,则会选择性提升高频能量。
更贴心的是,它还支持“自动模式”——如果你不知道该怎么调,什么都不输入,它也会靠内置的听觉感知启发式,自动给你一个平衡、耐听的母带处理结果。
这才是真正的“小白友好型AI”。
比如你是个Vlogger,视频里的背景音乐总是压过人声。现在你可以直接告诉它:“把BGM音量降低,突出人声。”
甚至你只是K歌爱好者,也能用它一键修音——“加点混响,让我听起来像在音乐厅唱”。
“百万调音师的工作保不住了……” 烧遍绘画界的AI之火,燎原到音乐界了?
当然,SonicMaster 也还有很多缺点。
比如它现在用的音频编码器还是有损的,处理某些复杂音乐时,可能会损失极细微的音色质感。尤其是在处理全长歌曲时,段与段之间的衔接偶尔还有改进空间。
但研究团队已经明确表示:这些都在迭代名单上。下一步就是更少的失真、更智能的长音频处理、更低的计算成本……
更让人兴奋的是,整个项目——代码、模型、数据集——全部开源。
音频处理开始跨入大众化、智能化了。
或许不远的将来,AI 自己生成的音乐,自己修复,自我增强,直出商用级音乐呢?
来源:算泥社区