摘要:对 MLOps 团队而言,AI 基础设施的关键变化在于:以网络为先的集群设计、面向内存的调度策略,以及数据中心级的供电与散热。优化目标应聚焦于集群层面的作业吞吐、可靠性与可运维性,而非单卡峰值指标。本文将最新基础设施进展转化为可落地的指导手册、SLO 与采购要
对 MLOps 团队而言,AI 基础设施的关键变化在于:以网络为先的集群设计、面向内存的调度策略,以及数据中心级的供电与散热。优化目标应聚焦于集群层面的作业吞吐、可靠性与可运维性,而非单卡峰值指标。本文将最新基础设施进展转化为可落地的指导手册、SLO 与采购要点。
双芯片 GPU 与超大规模加速器以机架级系统形态交付,标配液冷与明确的故障域。推理芯片加速分化,面向长上下文与稀疏激活(MoE)等工作负载。互连成为利用率的瓶颈机架级互连将高带宽低时延连接从单机箱扩展到机架,拓扑开始围绕并行策略设计。内存是主要限制尽管 HBM 容量提升,但长上下文模型与多模态/视频仍受限于内存带宽与 KV 缓存策略。供电与散热决定可部署上限100 kW 的高密度机架、直液冷、高压配电与漏液检测,正成为新建 AI 机房的基线能力。产能规划:以“机架”为原子单位,而非“GPU 数量”。配额与调度以机架为基本粒度。调度策略:将网络作为一等公民。对模型并行组进行协同调度,减少跨机架流量。内存策略:按模型类别统一优化器分片、激活重计算与 KV 缓存放置策略。可靠性:SLO 与故障域对齐。将专家组或张量并行组约束在故障隔离边界内。成本控制:以“tokens/美元”“tokens/千瓦时”为核心指标,而非仅看服务器利用率。并行模板 稠密 LLM:张量并行 + 流水并行混合;强制张量组同机架放置。 MoE:限制每机架专家数;利用调度器就近性;固定路由器位置以避免跨机架震荡。利用率手册 预检:互连健康、NCCL 拓扑、NUMA 绑核、时钟/功耗策略。 作业保护:链路劣化快速失败;当双向带宽下降时自动收缩并行规模。检查点与重启 采用增量检查点与优化器分片;将重启恢复时间纳入 SLO 校验。数据管线 依据网络状况调节预取;尽可能将分片数据与计算共置。长上下文 仅在网络稳定且带宽有保障时进行跨节点 KV 缓存分片;否则优先节点本地缓存并结合请求批处理。MoE 服务 专家集合尽量机架本地;跨机架仅限路由跳转;可用黏性会话降低抖动。时延 SLO 为每跳时延做预算;在调度器层面执行放置规则;按机架预热热点模型。成本控制 以有效 tokens/秒与 p95 时延驱动弹性伸缩,而非实例数量。将缓存命中率作为一等指标。拓扑感知 将环形/蜻蜓/胖树等拓扑知识编码进调度器;对 集合通信 与专家流量避免过度汇聚的叶子层。健康与可观测性 面板监控每链路错包率、重传与拥塞信号;当跨机架带宽低于策略阈值时告警。放置策略 张量并行组采用硬约束;流水并行阶段采用软约束;冗余检查点相互反亲和。将设施约束纳入调度策略。标注高密度机列;定义维护时窗与“机架排空/回灌”手册。在产能计划中量化安装与服务时长;考虑公用工程(电力/水路)交付周期。集群级性能 针对代表性训练与推理工作负载,在目标规模下的 tokens/秒。互连 可保证的双向带宽与故障域行为;机架级服务隔离能力。内存 有效 HBM 带宽与支持的内存分区/分片模式。可靠性 节点与链路故障的 MTTR;热插拔流程;遥测覆盖度。供电与散热 机架功率包线、冷却方式、漏液检测与维护空间预留。软件 NCCL/集合通信性能,编译器/运行时在多加速器间的可移植性,观测与告警的集成度。参考 SLO训练 作业启动 p50 推理 按上下文长度分桶的 p95 时延目标;按机架分区可用性 ≥ 99.9% KV 缓存命中率达到模型目标;弹性伸缩在不超配的前提下维持 p95 目标运行手册(精简版)spec:topologySpreadConstraints:- maxSkew: 1topologyKey: rackwhenUnsatisfiable: DoNotSchedulelabelSelector:matchLabels:app: llm-trainNCCL 关键环境变量(Pod 模板片段)env:- name: NCCL_IB_HCAvalue: mlx5_0,mlx5_1- name: NCCL_IB_QPS_PER_CONNECTIONvalue: "4"- name: NCCL_SOCKET_IFNAMEvalue: bond0- name: NCCL_TOPO_DUMP_FILEvalue: /var/log/nccl_topo.xml- name: NCCL_NET_GDR_LEVELvalue: PHB诊断命令kubectl describe pod $POD | grep -i nodenvidia-smi topo -mnccl-tests/build/all_reduce_perf -b 8M -e 1G -f 2 -g 8cluster_name: ray-llmavailable_node_types:gpu.rackA:resources: {"CPU": 32, "GPU": 8, "rack": 1}gpu.rackB:resources: {"CPU": 32, "GPU": 8, "rack": 2}scheduler:preemptible: falsespread: false任务放置示例(Python):@ray.remote(resources={"rack": 1, "GPU": 1})def expert_forward(x):...MoE 训练作业脚本:#SBATCH -N 4#SBATCH --gpus-per-node=8#SBATCH --constraint=rackAexport NCCL_ASYNC_ERROR_HANDLING=1srun --mpi=pmi2 python [train.py]() \\--tensor-parallel-size 4 \\--pipeline-parallel-size 2 \\--num-experts 16 --experts-per-rack 8参数化 KV 缓存策略:@dsl.componentdef serve(model:str, kv_cache_policy:str):return ContainerSpec(image='repo/serving:latest',args=['--model', model, '--kv-cache-policy', kv_cache_policy])快速排查互连退化:netstat -i | awk '{print $1, $4, $5}' | column -tibstat; ibswitches; iblinkinfo机架热告警与降级:ipmitool sdr | grep -i tempkubectl label node $N rack=hot --overwritekubectl cordon $N && kubectl drain $N --delete-emptydir-dataKV 缓存观测(PromQL 示例):rate(kv_cache_hits_total[5m]) / (rate(kv_cache_hits_total[5m]) + rate(kv_cache_misses_total[5m]))对 MLOps 而言,AI 基础设施是一门“运维 + 系统工程”的学科。制胜之道在于将芯片与网络选择,与调度策略、内存纪律和设施级运行手册协同设计,在集群尺度上实现吞吐、可靠与成本效率的最优组合。
来源:發哒哒哒财