摘要:年初跟风上一体机的客户太多了,但现在不少客户的一体机都砸手里了,远远低于他们的预期。
老曹这几年,太难了。
他是第一批对大模型有先知先觉的人,两年前从大厂辞职出来,开始围绕大模型做生意。
从最初倒腾GPU,到后来攒智算中心,再到帮人做万卡训练集群的优化,啥火搞啥。
每天忙得像个「影帝」,年底一算收入,挣得还不如「群演」。
可是这半年,老曹彻底转运了,搞得风生水起。
为啥,原来,他转型帮人做大模型推理方案咨询服务。
在我看来,这生意卷的很,什么各种大模型一体机满天飞,真能挣到钱?
老曹嘿嘿一笑,讲起了他的生意经↓
你以为那些DeepSeek一体机真能满足需求?
我现在的项目核心切入点,就是让那些烂尾的DeepSeek一体机重新支棱起来。
年初跟风上一体机的客户太多了,但现在不少客户的一体机都砸手里了,远远低于他们的预期。
说着,老曹站起身,在他办公室的白板上一顿写写画画,给我讲起了「烂尾」原因。
刚开年的时候,客户们的关注点都是抢DeepSeek一体机,能不能跑满血、性能是多少,追求总吞吐量、TPOT、TTFT…
说白了,开始还是尝鲜心态,后来真用起来,才发现问题多了去了↓
推理性能宣传吊炸天,实际场景拉垮
很多厂商宣传的TPTT、TPOT都是理想极限值,一旦上下文长度增加,或者加上RAG,就拉稀。
多模型适配、升级、调度,完全搞不定
这半年出了很多爆款开源模型,Qwen、K2…,很多客户希望在一体机平台上尝试,还希望多模型调度、切换…,跑起来容易,跑得好很难。
多机并行推理,PD分离部署,坑多水深
对很多企业来讲,一台往往不够用,当他们希望扩展到集群部署,再搞PD分离架构,简直就是遇到“叹息之墙”,难以跨越。
还有,客户自己有些存量智算服务器,也希望一起跑起来。
……
老曹balabala讲了半天,我越听越不信↓
虽然老曹是智算老司机,但这些都是新问题,他凭啥搞定?
老曹嘿嘿一笑,说:我给你讲个秘密↓
不是我牛B,是我用的方案牛B。
我现在用红帽的「AI全家桶」,瞬间就把这些项目盘活了。
这个“桶”里都有啥黑科技呢?
红帽AI的第一个神器,叫做:AI Inference Server,红帽AI推理服务器。听听这名字,一看就是专门干模型推理的。
但别无误会,这不是硬件,而是软件,它的工作是适配各种AI服务器,让它们把推理服务跑得更欢。
红帽AI推理服务器有三大绝技↓
首先,它提供经过加固的、提供持续支持服务的vLLM商业发行版。
vLLM大家都不陌生吧?堪称最受欢迎的开源推理引擎,市面上生产环境部署的大模型推理服务,背后都有vLLM的影子。
但有一点你可能不知道,红帽是vLLM开源社区最大的贡献者之一。
所以,红帽推出vLLM发行版,就好比红帽是Linux开源社区的领先贡献者,推出了最流行的企业级Linux发行版RHEL。
“红帽版vLLM”,底层仍基于开源vLLM,但红帽会对其做企业级加固,确保更高的稳定性、安全性和版本一致性。
按老曹的说法,用社区版vLLM,要自己适配硬件、调试优化、修复漏洞,遇到bug,也只能依赖社区issue。
现在用红帽提供的企业版vLLM,就能获得红帽的企业级支持,兼容性保证、bug修复、安全补丁全部都有人兜底“背锅”。
vLLM提供多种推理优化手段,以便处理数千亿甚至万亿参数规模的模型。
比如张量并行、流水线并行,还有针对MoE模型的专家并行,以及面向PD分离场景的数据并行。
不止如此,红帽还在vLLM基础上做了扩展,内置模型压缩器(LLM Compressor),这是个统一的量化库,进一步优化性能,大幅降低显存占用。
还额外增加了推测解码(Speculative Decoding)技术,通过类似小模型“打草稿”、大模型“审稿”的工作流程,减少大模型逐token解码次数,从而进一步提升推理速度。
更重要的是,红帽已经针对主流GPU、AI加速卡做好了适配和优化,这对企业场景很重要,在实际落地中,支持异构硬件是刚需。
老曹深有体会,他去帮客户做一体机落地,情况千奇百怪。
客户原来只调好了一台一体机,后面要扩展的时候,各种卡、各种硬件都冒出来了。
此时用红帽AI Inference Server,配上官方“盖章”的vLLM,适配无压力、少踩太多坑。
第二,红帽AI Inference Server用标准化的容器镜像交付,无论是在RHEL上,还是在OpenShift环境下,都可以快速部署。
即便是其他K8s或者其他五花八门的Linux发行版,也可以“一次构建,处处运行”。
这一点,老曹也是赞不绝口,真正趟过行业落地深水区的老司机都懂,各种复杂的Infra环境,跨环境一致性可太重要了。
第三,为了让推理服务器运行的更轻松,红帽还悄悄干了一件大事,它们把业界几乎所有的热门开源模型都做了二次优化,免费提供下载。
你打开Hugging Face,跳到红帽目录下,一定会被他家的默默努力所震惊,足足有500多个优化过的模型,不同版本、尺寸、量化规格的DeepSeek、Qwen、Kimi、Llama、Mistral…
这对老曹来说,可太方便了,不管客户们的原来一体机想要改跑什么模型,都能搞定。
硬件适配好了,系统适配好了,连模型都给定制优化好了,老曹只需要搞点「拿来主义」,就可以轻松治“烂尾”。
llm-d是由红帽发起的开源项目,目标就是要打造一个面向生产环境的、可调度、可观测、高效率的K8s原生分布式推理平台。
是不是看着有点抽象?可是当你需要真正在生产环境大规模部署AI推理服务的时候,这个东西就是神器。
比如大模型推理的两个阶段Prefill和Decode,前者需要强计算,后者需要高显存带宽。
让他俩挤到一个节点,就会争抢资源,降低效率。
此时用PD分离方案,把他们分别“塞”到不同节点/Pod,分别优化,就能显著提升推理效率。
但是,节点多了以后,PD分离部署和调度靠手搓太麻烦!
此时,llm-d就非常擅长干这事,它借助官方预先提供的PD分离配方(Helmfile),指挥好搭档K8s,一键完成部署。
部署完了还不够,不同的业务场景,往往需要不同的PD节点配比。
所以,你还得做好调度,持续监测和优化。
这个时候,llm-d的智能调度能力和可观测性就发挥出来。
首先llm-d提供了推理调度网关(IGW,Inference Gateway),这就好比是推理流量大脑,负责接入流量、调度流量、管控服务质量。
实战中,IGW作为统一入口,接受用户请求,并综合多种指标,智能选择最优的P节点和D节点,优先减少重复计算,保证推理效果。
这种操作对用户是完全透明的,以前老曹搞完PD分离部署后,要反复手搓调度策略。
现在,交给llm-d,效果又好又省心。
另外,除了K8s原生的那些基础监控能力,llm-d还有专门针对模型推理层和分布式层的监控指标,精确判断PD分离是否健康、调度是否合理,并跟踪每一跳的延迟和状态。
在实操中,可以充分利用llm-d提供的这种可观测性,进行效果评估、持续优化。
老曹坦言,红帽AI Inference Server稳住了大模型推理的基本盘,堆高了推理的下限。
而llm-d则可以继续拉升推理能力的上限,进一步压榨硬件能力,让老曹得意轻松应对用户各种千奇百怪的需求。
讲到这里,老曹顿了顿,继续说↓
其实不止这两个宝贝,连红帽企业版Linux操作系统RHEL和混合云平台OpenShift也都有“AI版”了。RHEL AI是RHEL的AI增强版,是为大模型和AI工作负载量身定制的「AI原生Linux」,内置AI Inference Server、模型压缩优化、跨加速器支持、模型仓库、覆盖AI组件的全生命周期安全。
企业可以直接把它当作AI原生基础设施,而不是「裸金属+裸OS+自己折腾」。
而OpenShift AI相当于集成了「AI工具链+模型推理+模型管理+多云AI适配+Agent开发支持」的AI原生版OpenShift。
OpenShift AI包含端到端的AI/ML生命周期支持,整体打通了从开发、训练、部署,到持续监控、运维的AI工作流。
同时,OpenShift AI也继承了OpenShift的多云、跨云一致性体验。
这就又能让人少踩很多坑,目前老曹服务的几个大客户,都开始规划混合部署了:涉及合规的放本地,开放服务的放云上,低延迟需求的放业务现场…
用了OpenShift AI,客户在本地生产环境验证成功的大模型方案,可以轻松搬到任意地点(本地机房、托管IDC、公有云、边缘节点)。
讲完这些,老曹在白板上擦了又画。
开始了他的总结:还有一点至关重要,红帽AI是100%开源的,选择自由,用着放心,我很看重,客户们也很看重!
基础设施搞定了、AI推理性能上来了,怎么与业务场景结合,更好的服务业务应用呢?
老曹看我还有疑问,于是讲出来他最后一个妙招——
这次他算是跟对人了:红帽已经联合CIO社群组织、核心企业CIO、上下游企业等,成立了企业级AI+专家委员会,与客户、伙伴一起共创,加速企业级AI落地。
比如,这份报告,就是他们汇聚了百位大型企业CIO真实调研数据,深入分析AI在企业级应用中的实践,对AI落地太有帮助了……
老曹已经有客户加入了“组织”,老曹自己也要加入,大家一起“共创”。
我一听,也立马来了精神↓
如今,无论是国家层面还是产业层面,都非常看重开源,红帽AI不仅100%开源,还提供广泛的兼容能力、多环境的一致性体验、覆盖AI全生命周期的方案…,而且,现在连探索行业落地的组织保障都有了。
红帽AI这趟车,千万不能错过!
来源:特大号