摘要:2025年9月26日,lmdeploy v0.10.1正式发布。本次更新为开发者带来了包括 ROCm 支持、FP8(B)F16 GEMM、GLM-4.5 兼容* 在内的一系列新功能,同时在性能优化、Bug 修复等方面也有明显提升。以下是本次版本的详细更新内容。
2025年9月26日,lmdeploy v0.10.1 正式发布。本次更新为开发者带来了包括 ROCm 支持、FP8(B)F16 GEMM、GLM-4.5 兼容* 在内的一系列新功能,同时在性能优化、Bug 修复等方面也有明显提升。以下是本次版本的详细更新内容。
1. 新增 ROCm 支持
• 增加安装指南,支持 AMD GPU 与 FlashAttention 兼容。
• 为使用 AMD 硬件的用户提供更多部署选择。
2. 支持 gpt-oss 基本输出
• 简化 gpt-oss 模型的输出使用流程。
3. 新增 FP8(B)F16 GEMM*
• 支持 FP8 与混合精度计算,提升模型推理性能。
4. 支持 GLM-4.5
• 新增 GLM-4.5 模型兼容,进一步丰富支持的模型类型。
5. 重构:构建引擎时移除 tokenizer
• 优化引擎构建流程,减少不必要的依赖加载。
6. 支持 InternVL3.5-Flash
• 为 InternVL 模型提供 FlashAttention 版本支持。
7. 支持 gpt-oss 在 /v1/chat/completions 中的函数调用与推理
• 提高与 OpenAI 接口格式的兼容性与功能丰富度。
8. 支持输出 stop_str
• 模型输出中可返回 stop_str,方便控制输出边界。
9. 支持 SDAR
• 增加对 SDAR 功能的支持,扩展处理能力。
1. 针对 GeForce RTX 50 系列优化安装说明
• 明确安装流程,提高新显卡用户的部署体验。
2. 返回 token_id
• 在推理结果中增加 token ID 返回,方便后处理。
3. 优化 AsyncEngine 生成方法
• 提升异步引擎生成效率,减少延迟。
4. 在 TP 引擎空闲时使用阻塞同步
• 提升多卡推理稳定性。
5. 增加 openai_harmony 依赖
• 以兼容部分 OpenAI 接口功能。
Bug 修复1. 修复与 triton 3.4.0 版本的兼容问题。
2. 修复 longrope 功能异常。
3. 修复 xtuner 中 tm rl 的使用问题。
4. 禁用在服务 VLM 模型时的前缀缓存功能。
5. 移除 NCCL_LAUNCH_MODE。
6. 当请求 include_stop_str_in_output 时,返回最后一个 token 的 logprobs、logits 和 last_hidden_states。
7. 修复在使用 PyTorch 引擎时,chat CLI 命令行中 device 参数异常的问题。
8. 修复 InternVL 相关问题,包括 Flash 长上下文精度错误。
9. 修复 SequenceManager::Erase 中未返回迭代器的问题。
10. 修复 cudagraph 未进行预热的问题。
其他更新1. 更新每日 CI 测试用例。
2. 将 KV 布局从 pagedattn 更改为 flashattn。
3. 移除 cuDNN 依赖。
4. 在 PyPI 构建中增加 CUDA 12.8 支持。
5. 增加 Ascend 硬件测试流程。
6. 更新部署服务依赖要求。
7. 增加 H800 功能测试工作流。
8. 版本号更新至 v0.10.1。
lmdeploy v0.10.1 在新功能扩展、性能优化和兼容性方面均有显著提升。特别是新增了 ROCm 支持,让 AMD GPU 用户也能高效使用,同时针对 GLM-4.5、InternVL3.5-Flash 等最新模型的兼容为开发者提供了更多选择。本次更新还修复了多个潜在问题,并完善了安装指南与依赖配置,进一步提升了部署与推理的稳定性与易用性。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
来源:小贺科技论