lmdeploy v0.10.1 发布：新增 ROCm 支持、GLM-4.5 兼容，以及众多优化

摘要：2025年9月26日，lmdeploy v0.10.1正式发布。本次更新为开发者带来了包括 ROCm 支持、FP8(B)F16 GEMM、GLM-4.5 兼容* 在内的一系列新功能，同时在性能优化、Bug 修复等方面也有明显提升。以下是本次版本的详细更新内容。

2025年9月26日，lmdeploy v0.10.1 正式发布。本次更新为开发者带来了包括 ROCm 支持、FP8(B)F16 GEMM、GLM-4.5 兼容* 在内的一系列新功能，同时在性能优化、Bug 修复等方面也有明显提升。以下是本次版本的详细更新内容。

1. 新增 ROCm 支持

• 增加安装指南，支持 AMD GPU 与 FlashAttention 兼容。

• 为使用 AMD 硬件的用户提供更多部署选择。

2. 支持 gpt-oss 基本输出

• 简化 gpt-oss 模型的输出使用流程。

3. 新增 FP8(B)F16 GEMM*

• 支持 FP8 与混合精度计算，提升模型推理性能。

4. 支持 GLM-4.5

• 新增 GLM-4.5 模型兼容，进一步丰富支持的模型类型。

5. 重构：构建引擎时移除 tokenizer

• 优化引擎构建流程，减少不必要的依赖加载。

6. 支持 InternVL3.5-Flash

• 为 InternVL 模型提供 FlashAttention 版本支持。

7. 支持 gpt-oss 在 /v1/chat/completions 中的函数调用与推理

• 提高与 OpenAI 接口格式的兼容性与功能丰富度。

8. 支持输出 stop_str

• 模型输出中可返回 stop_str，方便控制输出边界。

9. 支持 SDAR

• 增加对 SDAR 功能的支持，扩展处理能力。

1. 针对 GeForce RTX 50 系列优化安装说明

• 明确安装流程，提高新显卡用户的部署体验。

2. 返回 token_id

• 在推理结果中增加 token ID 返回，方便后处理。

3. 优化 AsyncEngine 生成方法

• 提升异步引擎生成效率，减少延迟。

4. 在 TP 引擎空闲时使用阻塞同步

• 提升多卡推理稳定性。

5. 增加 openai_harmony 依赖

• 以兼容部分 OpenAI 接口功能。

Bug 修复

1. 修复与 triton 3.4.0 版本的兼容问题。

2. 修复 longrope 功能异常。

3. 修复 xtuner 中 tm rl 的使用问题。

4. 禁用在服务 VLM 模型时的前缀缓存功能。

5. 移除 NCCL_LAUNCH_MODE。

6. 当请求 include_stop_str_in_output 时，返回最后一个 token 的 logprobs、logits 和 last_hidden_states。

7. 修复在使用 PyTorch 引擎时，chat CLI 命令行中 device 参数异常的问题。

8. 修复 InternVL 相关问题，包括 Flash 长上下文精度错误。

9. 修复 SequenceManager::Erase 中未返回迭代器的问题。

10. 修复 cudagraph 未进行预热的问题。

其他更新

1. 更新每日 CI 测试用例。

2. 将 KV 布局从 pagedattn 更改为 flashattn。

3. 移除 cuDNN 依赖。

4. 在 PyPI 构建中增加 CUDA 12.8 支持。

5. 增加 Ascend 硬件测试流程。

6. 更新部署服务依赖要求。

7. 增加 H800 功能测试工作流。

8. 版本号更新至 v0.10.1。

lmdeploy v0.10.1 在新功能扩展、性能优化和兼容性方面均有显著提升。特别是新增了 ROCm 支持，让 AMD GPU 用户也能高效使用，同时针对 GLM-4.5、InternVL3.5-Flash 等最新模型的兼容为开发者提供了更多选择。本次更新还修复了多个潜在问题，并完善了安装指南与依赖配置，进一步提升了部署与推理的稳定性与易用性。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。

来源：小贺科技论

标签：推理 amd chat rocm lmdeploy

本文地址：http://news.43b.com.cn/a/1434925.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!