火山引擎:单机部署 DeepSeek-R1 的 W4A8 方案,部署成本减半 然而,DeepSeek-R1 包含 671B 的模型参数,基于 FP8 的数据精度,权重显存消耗接近 700GB,单卡 96GB 显存的 GPU 卡,也需要 16 卡进行多卡部署(2 台 ECS.hpcpni3ln.45xlarge 实例),多机推理之间的数据 sudo 火山 单机 w4a8 w4a8方案 2025-06-09 12:47 3