Step by Step本地化部署SenseVoice

B站影视 2025-01-30 17:43 2

摘要:春节期间学习语音识别,从相关大模型中比较了Whisper和SenseVoice,最后还是选择了自己国家的产品,本以为部署过程应该像网上的教程一样就几条命令,结果发现由于自己环境的原因颇费周折,于是整理了成一篇短文。

春节期间学习语音识别,从相关大模型中比较了Whisper和SenseVoice,最后还是选择了自己国家的产品,本以为部署过程应该像网上的教程一样就几条命令,结果发现由于自己环境的原因颇费周折,于是整理了成一篇短文。

一、基础环境

Macbook Pro 14寸,MacOS 15.1.1 (24B91),Python 3.13.1。

二、代码下载

git clone https://github.com/FunAudioLLM/SenseVoice.git

结果怎么都无法下载,直接僵死最后提示无法连接,后来通过VPN以网页形式打开,选择下载ZIP文件,得到SenseVoice-main.zip压缩包,解压缩到对应目录。

三、安装依赖

1、Python环境清理

因为Python3是使用Homebrew安装的,所以使用pip3来安装依赖包时会提示error: externally-managed-environment,即两种包管理工具冲突了,虽然可以用--break-system-packages参数来强制安装,但每次安装都需要增加此参数,略显麻烦,于是在home目录下增加配置文件,具体路径为~/.config/pip/pip.conf,内容如下:

[global]break-system-packages = true

当然,如果想要通过建立虚拟环境的方式来分隔也没有问题:

python3 -m venv myenvsource myenv/bin/activatepip3 install

2、安装所需依赖包

这一步是最麻烦的,按照指南来说,直接两条命令就搞定:

pip3 install -r requirements.txtpip3 install gradio

结果在这一步出错频频,花了不少时间一关关趟过去。

(1)torch版本

第一次安装提示出错,说torch版本低于2.3的无法安装,具体信息为

ERROR: Could not find a version that satisfies the requirement torch

ERROR: No matching distribution found for torch

后来就直接修改requirements.txt,将torch

torch # 原始版本为 torch=1.1.3numpy=0.111.1

(2)funasr依赖

搞定torch版本后,重新运行pip3 install -r requirements.txt,这次错误出现在funasr编译时,提示Building wheel for sentencepiece (setup.py) ... error,具体为cmake、nproc等命令无法找到,通过百度+AI搜索到了解决方案,即安装cmake和pkg-config,于是补充安装所需依赖包:

brew install cmake pkg-configpip3 install sentencepiece

完成后再运行pip3 install -r requirements.txt,终于完成所有依赖的安装。

最后安装ffmpeg

brew install ffmpeg

四、运行本地Web服务

貌似所有依赖都已经安装完毕,于是运行本地Web服务

cd SenseVoidepython3 webui.py

结果仍然报错,错误信息如下:ModuleNotFoundError: No module named 'chunk',还少了一个模块。

使用pip3继续安装依赖包,结果继续出错,这次核心的错误信息如下:

package_file = open(join(HERE, 'chunk', '__init__.py'), 'rU')ValueError: invalid mode: 'rU'

仔细排查,原来是Python版本兼容性的问题,即从Python3开始,模式rU已经被废弃,应该使用‘r’只读模式。

继续尝试,用python2.7对应的pip是可以安装chunk,但我们用的是Python3,所以还得回到Python3上来。

试过增加参数--no-use-pep517,即使用旧的构建系统(python3 install chunk --no-use-pep517),结果仍然出错,反馈信息一致,就只剩下一条路,即将包下载下来,修改setup.py文件中对应的参数。

先使用python3 download chunk下载软件包,结果仍然在下载后进行安装,继续报错,且文件保存在临时目录,命令执行完成后,无法通过临时目录去访问。

最后直接访问网站https://pypi.org/,搜索chunk项目,直接下载文件。

然后解压缩,再修改文件setup.py中的第11行,将open命令中的'rU'改为'r',然后重新安装即可。

cd pip3 install .

最后,再次运行python3 webui.py终于可以正常启动了,这时会先下载相关的文件包括模型(model.pt)和相关文件,最大的当然是模型文件,大小为893MB。

下载完成后,就可以通过浏览器访问本地应用页面来使用相关语音服务,访问地址为:http://localhost:7860,本地界面如下图所示,可将要语音识别的文件(mp3或wav文件拉到左下角的窗口,然后点击“Start”按钮就可以进行语音识别,完成后左下角的文本框会输出对应的文字。

尝试了一下万老师的一期精英日课“2025年必定发生的三项科技进步”,识别率挺高,除了会将一句话用句号分割之外,包括英文、数字都能成功识别。

来源:邢邢科技智慧

相关推荐