HiFi-SR:让你的声音更加清晰动听的高保真语音超分辨率技术

B站影视 2025-01-30 06:00 2

摘要:该篇论文主要介绍了一种名为HiFi-SR的语音超分辨率方法,该方法使用了端到端的对抗性训练技术,并且采用了统一的变压器卷积生成器设计,能够无缝地处理低分辨率Mel频谱图的预测和转换为时域波形。同时,为了提高高频保真度,作者还引入了一个多带、多尺度的时间频率鉴别

该篇论文主要介绍了一种名为HiFi-SR的语音超分辨率方法,该方法使用了端到端的对抗性训练技术,并且采用了统一的变压器卷积生成器设计,能够无缝地处理低分辨率Mel频谱图的预测和转换为时域波形。同时,为了提高高频保真度,作者还引入了一个多带、多尺度的时间频率鉴别器以及一个多尺度的Mel重建损失函数。实验结果表明,HiFi-SR在客观指标和ABX偏好测试中都显著优于现有的语音超分辨率方法,而且可以适用于任何输入的语音信号,采样率范围从4kHz到32kHz不等。

本文提出的HiFi-SR模型采用了基于Transformer-Convolutional Generator的架构,用于高分辨率语音信号的合成。该模型将输入的Mel-spectrogram映射到原始波形,并通过多尺度、多带宽的时间-频率判别器来提高音频质量。具体来说,HiFi-SR模型使用了MossFormer2块作为其Transformer网络的基础组件,以捕捉长程全局依赖关系;同时,它还采用了卷积神经网络(CNN)来进行波形合成,以捕获周期性的语音模式。此外,该模型结合了多个判别器,包括多尺度判别器(MSD)、多时间周期判别器(MPD)和多带宽、多尺度时间-频率判别器(MBD),以提高音频的质量。

相比于传统的语音增强技术,如MelGAN和HiFi-GAN等,HiFi-SR模型采用了更加复杂的结构设计,例如使用了Transformer网络以及多尺度、多带宽的时间-频率判别器。这些改进使得HiFi-SR模型能够更好地处理高分辨率语音信号,并在语音质量上取得了更好的效果。

本文提出的HiFi-SR模型旨在解决高分辨率语音信号合成中的问题,即如何在保证语音质量的同时实现高分辨率的重建。通过引入多尺度、多带宽的时间-频率判别器,HiFi-SR模型可以更准确地捕获周期性和非周期性的语音模式,从而提高了音频的质量。同时,HiFi-SR模型也具有较强的泛化能力,适用于不同语种和说话人的语音信号合成任务。

本文主要介绍了针对语音增强任务的HiFi-SR模型,并进行了与其他四款基准模型的对比实验。实验包括三部分:数据集、评价指标和训练细节。

在数据集方面,作者使用了VCTK语音语料库中的录音作为训练数据,其中包含了来自108位英语演讲者的总时长为44小时的音频。同时,作者还创建了两个额外的测试集,分别是EXPRESSO和VocalSet,用于评估模型对不同类型的语音数据的泛化能力。

在评价指标方面,作者采用了Log-spectral distance(LSD)作为客观评价指标,以及ABX听觉测试作为主观评价指标。对于客观评价指标,LSD是一种频率域度量,用于衡量两个幅度谱之间的对数距离。而对于主观评价指标,作者进行了ABX听觉测试,让八名听众对50个音频对进行选择,以确定哪个输出更符合音质标准。

在训练细节方面,作者使用了四个基准模型:Nu-wave、WSRGlow、NVSR和AudioSR,所有模型的目标采样率为48kHz。作者使用了公开发布的基准结果来评估这些模型在VCTK测试集上的表现。而对于EXPRESSO和VocalSet测试集,作者使用了NVSR预训练模型,并通过应用各种低通滤波器将48kHz音频数据转换为较低的采样率,从而模拟出训练和测试集。作者使用了80带mel频谱图,时间分辨率比原始数据降低了256倍。对于HiFi-SR模型的设置,作者使用了N=24个MossFormer2块,嵌入大小为512。在HiFi-GAN生成器中,作者设置了hu=512,ku=[16, 16, 4, 4],kr=[3, 7, 11],Dr=[[[1, 1],[3, 1],[5, 1]] × 3],并使用AdamW优化器进行训练。作者在单个NVIDIA A800 GPU上进行了500k步的训练,学习率为2 × 10−4,每轮衰减率为0.999,β1=0.8,β2=0.99,权重衰减λ=0.01。

综合来看,本文的主要贡献在于提出了一种新的语音增强模型HiFi-SR,并对其进行了与其他四款基准模型的对比实验。通过实验结果可以看出,HiFi-SR在多个测试集上均取得了较好的性能,证明其具有较强的泛化能力和鲁棒性。

该论文提出了一种新的语音超分辨率方法HiFi-SR,通过统一的网络结构实现了高质量的语音信号重建,并在客观评价指标和主观ABX测试中均取得了显著优于现有方法的表现。同时,该方法还采用了多尺度时间频率鉴别器和多尺度mel重构损失等先进技术,进一步提高了模型性能。

HiFi-SR是一种全新的语音超分辨率方法,其主要创新点在于将预测低分辨率语音信号的潜在表示和将其转换为时域波形的任务合并成一个端到端的训练过程。此外,HiFi-SR还使用了多尺度时间频率鉴别器和多尺度mel重构损失等技术来提高模型性能。

随着深度学习技术的发展,语音处理领域的研究也将不断深入。未来可以探索更多的深度学习算法和技术,以进一步提高语音超分辨率的效果和应用范围。同时,也可以考虑将该方法应用于其他领域,如音频增强和语音合成等。

来源:宁教授网络空间元宇宙

相关推荐