vLLM再曝CVSS 9.8分严重漏洞，AI基础设施面临威胁

摘要：近日知名大模型推理框架vLLM修复了一处腾讯朱雀实验室报告的CVSS评分9.8分严重安全漏洞（CVE-2025-47277），攻击者可利用该漏洞获取GPU算力服务器的控制权限，可能导致模型泄露、算力窃取以及服务中断等重大安全事故。朱雀实验室开源的AI-Infr

近日知名大模型推理框架vLLM修复了一处腾讯朱雀实验室报告的CVSS评分9.8分严重安全漏洞（CVE-2025-47277），攻击者可利用该漏洞获取GPU算力服务器的控制权限，可能导致模型泄露、算力窃取以及服务中断等重大安全事故。朱雀实验室开源的AI-Infra-Guard已支持此漏洞的风险自查。

1. vLLM框架的重要性与安全挑战

vLLM是一个专为大型语言模型（LLM）推理设计的高性能框架，通过创新的内存管理和计算加速技术，显著提升吞吐量并降低延迟，特别适用于企业级高并发场景。作为一个社区驱动的开源项目，vLLM融合了学术界与工业界的智慧，在GitHub上收获了47K Star的关注度。目前，Hugginface社区和众多大模型厂商都广泛使用vLLM进行AI模型推理，其安全性直接关系到AI服务的稳定性和数据安全。

然而，vLLM的高普及度也使其成为攻击者的潜在目标。此前，vLLM曾曝光过两个位于MooncakePipe服务的严重漏洞。本次修复的新漏洞存在于vLLM的PyNcclPipe服务中，攻击者可通过发送定制化的恶意数据包，远程获取GPU算力服务器控制权限，CVSS评分（通用漏洞评分系统，满分10分）高达9.8分。

vLLM作为当前最受欢迎的推理框架之一，支持单机多卡和多机多卡推理，以降低对显卡性能的需求。在处理分布式GPU节点间的张量通信时，vLLM可选使用NVIDIA的NCCL（NVIDIA Collective Communications Library）技术。NCCL专为分布式多GPU计算环境设计，通过高效的张量集合操作实现数据通信与同步。

在vLLM中，PyNcclPipe类负责构建支持NCCL的通信域，实现分布式GPU节点间的高效数据传输：

● GPU侧：通过PyNcclCommunicator类传输KV-Cache数据；

● CPU侧：通过send_obj和recv_obj方法处理控制消息。

官方示例代码可参考：

vllm/tests/kv_transfer at main · vllm-project/vllm · GitHub

当PyNcclPipe服务接收到外部恶意客户端发来的不安全数据流时，会触发pickle反序列化漏洞，导致远程命令执行（RCE）。

攻击者可利用此漏洞控制服务器，窃取模型文件，甚至进一步渗透GPU算力集群等内网平台，造成以下严重后果：

● 大规模数据泄露：敏感模型和数据被窃取；

● 算力窃取：攻击者占用GPU资源进行非法计算；

● 服务中断：AI服务不可用，影响业务连续性。

典型场景下的漏洞利用流程如下：

● 服务端创建PyNcclPipe服务，接受远程节点通信数据；

● 攻击者构造恶意数据包并发送至PyNcclPipe服务；

● 攻击者成功“getshell”，获取服务器控制权并实施后续攻击。

此漏洞影响vLLM版本号>=0.6.5且小于0.8.5的所有版本，目前vLLM已在0.8.5中修复该漏洞，并在项目Github安全公告致谢了此漏洞的三位报告者，其中包含来自于国内腾讯公司的朱雀实验室。

同时我们也注意到，朱雀实验室开源的AI-Infra-Guard（GitHub - Tencent/AI-Infra-Guard: A comprehensive, intelligent, easy-to-use, and lightweight AI Infrastructure Vulnerability Assessment and MCP Server Security Analysis Tool.）已新增对此漏洞的扫描功能，用户可通过该工具快速评估现有vLLM组件是否受影响。若需进一步确认，可检查服务器代码是否调用了PyNcclPipe模块，并核查相关服务端口是否外部可访问。