摘要:Qwen2.5-Omni 是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。
大家好,我是 Ai 学习的老章
看个新模型,多模态不够用,这是全模态。
模型简介
Qwen2.5-Omni 是一个端到端的多模态模型,旨在感知多种模态,包括文本、图像、音频和视频,同时以流式方式生成文本和自然语音响应。
Qwen2.5-Omni 在所有模态上的表现都优于同样大小的单模态模型和闭源模型,在单模态任务中,它在语音识别、翻译、音频理解、图像推理、视频理解和语音生成等方面表现出色。
⚙️部署与使用 升级 transformers、安装依赖
pip uninstall transformers pip install git+https://github.com/huggingface/transformers@3a1ead0aabed473eafe527915eea8c197d424356 pip install accelerate pip install qwen-omni-utils[decord] pip install -U flash-attn --no-build-isolation⏬下载模型文件下载完整模型库:sudo modelscope download --model Qwen/Qwen2.5-Omni-7B /home/data-local/Qwen2.5-Omni-7B,将模型下载到指定的本地目录"/home/data-local/Qwen2.5-Omni-7B"中。模型文件差不多 22GB
重装 vLLM
这条路我没有调试通,vLLM 本身不支持Qwen2.5-Omni-7B建议卸载原 vLLM 后安装qwen2_omni_public_v1分支的 vllm,但是我在安装中报 GCC 错误,升级太太太麻烦,我就没有再折腾pip uninstall vllm pip install git+https://github.com/fyabc/vllm@qwen2_omni_public_v1 # 或着 git clone https://github.com/fyabc/vllm cd vllm pip install -e .如果没有报错,那么正常这样启动就行了
CUDA_VISIBLE_DEVICES=4,5 vllm serve "/home/data-local/Qwen2.5-Omni-7B" --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.9 --max-model-len 16384 --tensor-parallel-size 2 --served-model-name "Qwen2.5-Omni-7B" 即便如此,vLLM 的支持依然也只有thinker部分,所以输出只能是文本启动模型
cd vllm # Audio + image + video python examples/offline_inference/qwen2_5_omni/only_thinker.py -q mixed_modalities # Audio + image + video VLLM_USE_V1=0 python examples/offline_inference/qwen2_5_omni/only_thinker.py -q use_audio_in_videoDocker为了简化部署过程,官方提供了预构建环境:qwenllm/qwen-omni[1],只需要安装驱动并下载模型文件即可启动演示。
docker run --gpus all --ipc=host --network=host --rm --name qwen2.5-omni -it qwenllm/qwen-omni:2.5-cu121 bash也可以直接通过如下命令启动网页演示:
bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B如需启用 FlashAttention-2,请使用如下命令:
bash docker/docker_web_demo.sh --checkpoint /path/to/Qwen2.5-Omni-7B --flash-attn2制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!
Reference
qwenllm/qwen-omni: https://hub.docker.com/r/qwenllm/qwen-omni
来源:小玉科技天地