LiteAvatar数字人音频驱动项目技术接入

B站影视韩国电影 2025-05-18 06:18 9

摘要：今天给大家分享的是阿里达摩院开源的LiteAvatar数字人生成工具，仅仅依赖CPU就可以通过音频实时驱动2D虚拟形象生成面部动画。

今天给大家分享的是阿里达摩院开源的LiteAvatar数字人生成工具，仅仅依赖CPU就可以通过音频实时驱动2D虚拟形象生成面部动画。

LiteAvatar结合了语音识别（ASR）和口型预测技术，能够根据输入的音频特征生成同步的面部表情和口型动作，动画效果流畅自然。

部署 LiteAvatar 实时互动版：https://github.com/HumanAIGC-Engineering/OpenAvatarChat

OpenAvatar依赖于GPU显卡，显卡最低配置需求是RTX 3090版本，应该需要20G显存。

本文介绍的是无需显卡依赖，纯CPU就能跑的数字人工具，因此使用LiteAvatar根据音频文件生成数字人视频。

先看看LiteAvatar数字人的效果：

LiteAvatar功能如下：

● 音频驱动动画生成：通过输入音频，实时生成虚拟形象的面部表情和口型动画。

● 轻量化运行：仅依赖CPU即可实现30fps的流畅动画，无需GPU支持。

● 口型同步预测：利用ASR模型提取音频特征，生成与语音内容匹配的口型动作。

● 支持移动设备：优化后的模型适配低功耗设备，适合手机或平板使用。

● 开源代码支持：提供完整源代码，允许用户自定义功能或集成到其他项目中。

● 实时处理能力：低延迟处理音频输入，确保动画与声音高度同步。

LiteAvatar的开源仓库GitHub地址：https://github.com/HumanAIGC/lite-avatar/tree/main

大家克隆lite-avatar过程中：

git clone https://github.com/HumanAIGC/lite-avatar.git

有些模型文件过大下载不全，比如:

目录下的

加起来1G那么大，笔者已经准备好了，可以直接通过百度网盘链接下载：

通过网盘分享的文件：LiteAvatar模型文件

提取码: sjua

可以将网盘weights整个文件夹覆盖到本地目录下:

另外生成数字人视频还需要ffmpeg工具，也在网盘中有:

下载7z.exe文件安装7z.zip:

安装好7z后打开7z工具：

用7z打开ffmpeg.7z工具，解压:

解压后记住解压路径，我的是:E:\ffmpeg-2025-05-15-git-12b853530a-full_build\ffmpeg-2025-05-15-git-12b853530a-full_build\bin

下载PyCharm社区版，下载链接:

安装Anaconda Windows版本：

下载好后Windows系统直接安装，安装完成后开始菜单出现:

打开Anaconda Prompt:

创建环境，使用Python 3.10环境：

conda create -n liteavatar2 python=3.10

安装过程：

进入liteavatar2环境:

conda activate liteavatar2

用PyCharm打开lite-avatar，Python环境选择liteavatar2环境：

首先确保网盘里的模型目录weights已覆盖文件夹

修改lite_avatar.py文件第333行：

将/usr/bin/ffmpeg替换为本地刚才安装的ffmpeg文件路径:

我的路径是:E:\\ffmpeg-2025-05-15-git-12b853530a-full_build\\ffmpeg-2025-05-15-git-12b853530a-full_build\\bin\\ffmpeg.exe

打开requirements.txt文件，找到torch，采用无显卡模式:

替换为:

torch==2.1.1

torch-complex==0.4.4

torchaudio==2.1.1

torchvision==0.16.1

打开Anaconda Prompt窗口：

执行安装依赖命令:pip install -r requirements.txt

第一轮安装完出现：

在requirements.txt注释掉triton==2.1.0

单独安装triton:

pip install triton

这个包应该不用了，再次安装环境:pip install -r requirements.txt

我们执行README中的生成数字人工具:

python lite_avatar.py --data_dir 数字人背景样例目录 --audio_file 音频wav文件 --result_dir 生成结果目录

数字人默认背景可以从lita-avatar/data目录下的sample.zip文件取得：

解压sample_data.zip文件夹:

下面有默认背景数字人:

查看：

所以数字人背景样例目录:

E:\tmp\lite-avatar\data\sample_data\preload

音频wav文件路径可以是lite-avatar目录下的weights\speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\example音频wav文件

生成结果目录设置为电脑上的文件夹即可:E:\tmp\lite-avatar\result

执行python lite_avatar.py --data_dir 数字人背景样例目录 --audio_file 音频wav文件 --result_dir 生成结果目录

替换为实际目录:

python lite_avatar.py --data_dir E:\tmp\lite-avatar\data\sample_data\preload --audio_file E:\tmp\lite-avatar\weights\speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\example\asr_example.wav --result_dir E:\tmp\lite-avatar\result

安装Numpy:

pip install numpy==1.23.0

再次运行:

安装cv2:

pip install opencv-python==4.11.0.86

安装librosa:

pip install librosa==0.9.2

安装loguru:

pip install loguru==0.7.3

安装pydub:

pip install pydub==0.25.1

安装torchvision:

pip install torchvision==0.16.1

安装tqdm:

pip install tqdm==4.67.1

安装onnxruntime:

pip install onnxruntime==1.20.1

安装typeguard:

pip install typeguard==2.13.3

安装six:

pip install six==1.17.0

安装yaml:

pip install PyYAML==6.0.2

安装jamo:

pip install jamo==0.4.1

安装sentencepiece:

pip install sentencepiece==0.2.0

安装jaconv:

pip install jaconv==0.4.0

安装torch_complex:

pip install torch-complex==0.4.4

安装torchaudio：

pip install torchaudio==2.1.1

安装h5py:

pip install h5py==3.12.1

pip install oss2==2.19.1

安装modelscope：

pip install modelscope==1.8.1

pip install numba==0.60.0

环境终于弄好了，正常运行

python lite_avatar.py --data_dir E:\tmp\lite-avatar\data\sample_data\preload --audio_file E:\tmp\lite-avatar\weights\speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch\example\asr_example.wav --result_dir E:\tmp\lite-avatar\result

生成数字人过程：

生成完毕：

打开E:\tmp\lite-avatar\result:

有单个图片文件：

查看视频文件test_demo.mp4:

播放数字人视频：

有更多数字人使用需求，可以进一步基于lite-avatar二次开发。

来源：科技透视镜

标签：音频 pip liteavatar数字 liteavatar

本文地址：http://news.43b.com.cn/a/202186.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!