7K Star开箱即用!阿里多语言语音大模型V2上线:CosyVoice,有方言

B站影视 2024-12-18 09:28 2

摘要:阿里早在7月就开源过一个语音大模型项目:FunAudioLLM,而它一次性包含了两个模型:SenseVoice(语音识别)和CosyVoice(语音生成)。

近年来,人工智能技术在各个领域都取得了令人瞩目的成果,其中,AI语音合成技术更是备受关注。

生活中也处处得见,像配音、解说、音乐等领域都有它的身影。

阿里早在7月就开源过一个语音大模型项目:FunAudioLLM,而它一次性包含了两个模型:SenseVoice(语音识别)CosyVoice(语音生成)

而今天我想要介绍的是专注于语音生成的 CosyVoice

因为它刚刚升级到了2.0版本,较1.0版本效果显著。

在介绍2.0版本亮点之前,我们先来看看 CosyVoice 的基本特性。

CosyVoice 是阿里开源的一款创新的多语言、情感丰富的语音生成大模型,旨在通过先进的 AI 技术生成自然且富有情感的语音。

无论是在语音生成的质量,还是在细节控制的精准度上,CosyVoice 都表现卓越,能够应对零样本语音生成、跨语言声音合成以及指令执行等多种任务。

仅需要3~10s的原始音频,CosyVoice即可生成模拟音色,甚至包括韵律、情感等细节,包括跨语种语音生成。

可以生成与特定特征匹配的语音,比如性别、年龄和个性等。还可以模仿非常自然的人类语音,包括笑声、咳嗽和呼吸。

多语言支持:支持包括 中文、英文、日语、粤语和韩语 在内的 5种主要语言。零样本语音克隆:只需 3~10秒的音频样本,即可准确模拟目标声音。精细化情感和风格控制:允许用户通过 文本指令 来精确控制生成语音的情感、语速、音高、音色等多维度的特征。跨语种语音生成:支持 跨语种语音生成,能够从一种语言的音频样本生成另一种语言的语音。语音生成与指令执行集成:CosyVoice 可以与开源大模型结合,支持 实时语音交互 和 语音翻译。

2.0 版本,带来了更加精准、自然且富有情感的语音生成体验!

发音准确度大幅提升:发音错误减少 30%-50%,让语音生成更加清晰、准确。音质提升:音质 MOS(Mean Opinion Score)评分从 5.4 提升至 5.53。超低延迟:150ms 超低首包延迟,确保语音生成过程更加流畅,适合实时语音交互和在线语音翻译。方言和口音调整:支持更细致的方言和口音调整,使生成的语音更加贴合目标地区的发音习惯。更细粒度的情感控制:如愉悦、悲伤、激动等,可生成更具表现力的语音。

CosyVoice的安装和使用同大多数开源项目无差。

最简单的当然是官方Demo直接用了(地址在文末)。

其次是用户根据官方文档进行操作,在本地或服务器上部署项目,下载模型。

具体步骤如下:

①克隆项目

git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git# If you failed to clone submodule due to network failures, please run following command until successcd CosyVoicegit submodule update --init --recursive

②创建虚拟环境,安装依赖

conda create -n cosyvoice python=3.10conda activate cosyvoice# pynini is required by WeTextProcessing, use conda to install it as it can be executed on all platform.conda install -y -c conda-forge pynini==2.1.5pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com# If you encounter sox compatibility issues# ubuntusudo apt-get install sox libsox-dev# centossudo yum install sox sox-devel

③模型下载

# SDK模型下载from modelscope import snapshot_downloadsnapshot_download('iic/CosyVoice2-0.5B', local_dir='pretrained_models/CosyVoice2-0.5B')snapshot_download('iic/CosyVoice-300M', local_dir='pretrained_models/CosyVoice-300M')snapshot_download('iic/CosyVoice-300M-25Hz', local_dir='pretrained_models/CosyVoice-300M-25Hz')snapshot_download('iic/CosyVoice-300M-SFT', local_dir='pretrained_models/CosyVoice-300M-SFT')snapshot_download('iic/CosyVoice-300M-Instruct', local_dir='pretrained_models/CosyVoice-300M-Instruct')snapshot_download('iic/CosyVoice-ttsfrd', local_dir='pretrained_models/CosyVoice-ttsfrd')

④配置环境变量

export PYTHONPATH=third_party/Matcha-TTS

⑤调用示例

from cosyvoice.cli.cosyvoice import CosyVoice, CosyVoice2from cosyvoice.utils.file_utils import load_wavimport torchaudiocosyvoice = CosyVoice2('pretrained_models/CosyVoice2-0.5B', load_jit=True, load_onnx=False, load_trt=False)# NOTE if you want to reproduce the results on https://funaudiollm.github.io/cosyvoice2, please add text_frontend=False during inference# zero_shot usageprompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)for i, j in enumerate(cosyvoice.inference_zero_shot('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '希望你以后能够做的比我还好呦。', prompt_speech_16k, stream=False)): torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)# fine grained control, for supported control, check cosyvoice/tokenizer/tokenizer.py#L248for i, j in enumerate(cosyvoice.inference_cross_lingual('在他讲述那个荒诞故事的过程中,他突然[laughter]停下来,因为他自己也被逗笑了[laughter]。', prompt_speech_16k, stream=False)): torchaudio.save('fine_grained_control_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate)# instruct usagefor i, j in enumerate(cosyvoice.inference_instruct2('收到好友从远方寄来的生日礼物,那份意外的惊喜与深深的祝福让我心中充满了甜蜜的快乐,笑容如花儿般绽放。', '用四川话说这句话', prompt_speech_16k, stream=False)): torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], cosyvoice.sample_rate) 写在最后

CosyVoice 是一款领先的多语言、情感控制的语音生成大模型,它不仅能在多种语言和情感下生成自然的语音,还能通过简单的音频样本进行说话人声音克隆,提供精准的音色和情感调控。

随着 AI 语音生成技术的进步,CosyVoice 不仅为开发者提供了一个强大的工具,也为语音交互和多语言应用打开了新的可能性。

模型:https://www.modelscope.cn/models/iic/CosyVoice2-0.5B

示例DEMO:https://www.modelscope.cn/studios/iic/CosyVoice2-0.5B

GitHub:https://github.com/FunAudioLLM/CosyVoice

本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~

来源:AIGC研究社一点号

相关推荐