那些烂尾的DeepSeek一体机项目，怎么收场？

B站影视欧美电影 2025-09-09 14:26 6

摘要：年初跟风上一体机的客户太多了，但现在不少客户的一体机都砸手里了，远远低于他们的预期。

老曹这几年，太难了。

他是第一批对大模型有先知先觉的人，两年前从大厂辞职出来，开始围绕大模型做生意。

从最初倒腾GPU，到后来攒智算中心，再到帮人做万卡训练集群的优化，啥火搞啥。

每天忙得像个「影帝」，年底一算收入，挣得还不如「群演」。

可是这半年，老曹彻底转运了，搞得风生水起。

为啥，原来，他转型帮人做大模型推理方案咨询服务。

在我看来，这生意卷的很，什么各种大模型一体机满天飞，真能挣到钱？

老曹嘿嘿一笑，讲起了他的生意经↓

你以为那些DeepSeek一体机真能满足需求？

我现在的项目核心切入点，就是让那些烂尾的DeepSeek一体机重新支棱起来。

年初跟风上一体机的客户太多了，但现在不少客户的一体机都砸手里了，远远低于他们的预期。

说着，老曹站起身，在他办公室的白板上一顿写写画画，给我讲起了「烂尾」原因。

刚开年的时候，客户们的关注点都是抢DeepSeek一体机，能不能跑满血、性能是多少，追求总吞吐量、TPOT、TTFT…

说白了，开始还是尝鲜心态，后来真用起来，才发现问题多了去了↓

推理性能宣传吊炸天，实际场景拉垮

很多厂商宣传的TPTT、TPOT都是理想极限值，一旦上下文长度增加，或者加上RAG，就拉稀。

多模型适配、升级、调度，完全搞不定

这半年出了很多爆款开源模型，Qwen、K2…，很多客户希望在一体机平台上尝试，还希望多模型调度、切换…，跑起来容易，跑得好很难。

多机并行推理，PD分离部署，坑多水深

对很多企业来讲，一台往往不够用，当他们希望扩展到集群部署，再搞PD分离架构，简直就是遇到“叹息之墙”，难以跨越。

还有，客户自己有些存量智算服务器，也希望一起跑起来。

……

老曹balabala讲了半天，我越听越不信↓

虽然老曹是智算老司机，但这些都是新问题，他凭啥搞定？

老曹嘿嘿一笑，说：我给你讲个秘密↓

不是我牛B，是我用的方案牛B。

我现在用红帽的「AI全家桶」，瞬间就把这些项目盘活了。

这个“桶”里都有啥黑科技呢？

红帽AI的第一个神器，叫做：AI Inference Server，红帽AI推理服务器。

听听这名字，一看就是专门干模型推理的。

但别无误会，这不是硬件，而是软件，它的工作是适配各种AI服务器，让它们把推理服务跑得更欢。

红帽AI推理服务器有三大绝技↓

首先，它提供经过加固的、提供持续支持服务的vLLM商业发行版。

vLLM大家都不陌生吧？堪称最受欢迎的开源推理引擎，市面上生产环境部署的大模型推理服务，背后都有vLLM的影子。

但有一点你可能不知道，红帽是vLLM开源社区最大的贡献者之一。

所以，红帽推出vLLM发行版，就好比红帽是Linux开源社区的领先贡献者，推出了最流行的企业级Linux发行版RHEL。

“红帽版vLLM”，底层仍基于开源vLLM，但红帽会对其做企业级加固，确保更高的稳定性、安全性和版本一致性。

按老曹的说法，用社区版vLLM，要自己适配硬件、调试优化、修复漏洞，遇到bug，也只能依赖社区issue。

现在用红帽提供的企业版vLLM，就能获得红帽的企业级支持，兼容性保证、bug修复、安全补丁全部都有人兜底“背锅”。

vLLM提供多种推理优化手段，以便处理数千亿甚至万亿参数规模的模型。

比如张量并行、流水线并行，还有针对MoE模型的专家并行，以及面向PD分离场景的数据并行。

不止如此，红帽还在vLLM基础上做了扩展，内置模型压缩器（LLM Compressor），这是个统一的量化库，进一步优化性能，大幅降低显存占用。

还额外增加了推测解码（Speculative Decoding）技术，通过类似小模型“打草稿”、大模型“审稿”的工作流程，减少大模型逐token解码次数，从而进一步提升推理速度。

更重要的是，红帽已经针对主流GPU、AI加速卡做好了适配和优化，这对企业场景很重要，在实际落地中，支持异构硬件是刚需。

老曹深有体会，他去帮客户做一体机落地，情况千奇百怪。

客户原来只调好了一台一体机，后面要扩展的时候，各种卡、各种硬件都冒出来了。

此时用红帽AI Inference Server，配上官方“盖章”的vLLM，适配无压力、少踩太多坑。

第二，红帽AI Inference Server用标准化的容器镜像交付，无论是在RHEL上，还是在OpenShift环境下，都可以快速部署。

即便是其他K8s或者其他五花八门的Linux发行版，也可以“一次构建，处处运行”。

这一点，老曹也是赞不绝口，真正趟过行业落地深水区的老司机都懂，各种复杂的Infra环境，跨环境一致性可太重要了。

第三，为了让推理服务器运行的更轻松，红帽还悄悄干了一件大事，它们把业界几乎所有的热门开源模型都做了二次优化，免费提供下载。

你打开Hugging Face，跳到红帽目录下，一定会被他家的默默努力所震惊，足足有500多个优化过的模型，不同版本、尺寸、量化规格的DeepSeek、Qwen、Kimi、Llama、Mistral…

这对老曹来说，可太方便了，不管客户们的原来一体机想要改跑什么模型，都能搞定。

硬件适配好了，系统适配好了，连模型都给定制优化好了，老曹只需要搞点「拿来主义」，就可以轻松治“烂尾”。

红帽AI的第二个神器，叫做：llm-d，面向生产环境的大规模AI推理项目。

llm-d是由红帽发起的开源项目，目标就是要打造一个面向生产环境的、可调度、可观测、高效率的K8s原生分布式推理平台。

是不是看着有点抽象？可是当你需要真正在生产环境大规模部署AI推理服务的时候，这个东西就是神器。

比如大模型推理的两个阶段Prefill和Decode，前者需要强计算，后者需要高显存带宽。

让他俩挤到一个节点，就会争抢资源，降低效率。

此时用PD分离方案，把他们分别“塞”到不同节点/Pod，分别优化，就能显著提升推理效率。

但是，节点多了以后，PD分离部署和调度靠手搓太麻烦！

此时，llm-d就非常擅长干这事，它借助官方预先提供的PD分离配方（Helmfile），指挥好搭档K8s，一键完成部署。

部署完了还不够，不同的业务场景，往往需要不同的PD节点配比。

所以，你还得做好调度，持续监测和优化。

这个时候，llm-d的智能调度能力和可观测性就发挥出来。

首先llm-d提供了推理调度网关（IGW,Inference Gateway），这就好比是推理流量大脑，负责接入流量、调度流量、管控服务质量。

实战中，IGW作为统一入口，接受用户请求，并综合多种指标，智能选择最优的P节点和D节点，优先减少重复计算，保证推理效果。

这种操作对用户是完全透明的，以前老曹搞完PD分离部署后，要反复手搓调度策略。

现在，交给llm-d，效果又好又省心。

另外，除了K8s原生的那些基础监控能力，llm-d还有专门针对模型推理层和分布式层的监控指标，精确判断PD分离是否健康、调度是否合理，并跟踪每一跳的延迟和状态。

在实操中，可以充分利用llm-d提供的这种可观测性，进行效果评估、持续优化。

老曹坦言，红帽AI Inference Server稳住了大模型推理的基本盘，堆高了推理的下限。

而llm-d则可以继续拉升推理能力的上限，进一步压榨硬件能力，让老曹得意轻松应对用户各种千奇百怪的需求。

讲到这里，老曹顿了顿，继续说↓

其实不止这两个宝贝，连红帽企业版Linux操作系统RHEL和混合云平台OpenShift也都有“AI版”了。

RHEL AI是RHEL的AI增强版，是为大模型和AI工作负载量身定制的「AI原生Linux」，内置AI Inference Server、模型压缩优化、跨加速器支持、模型仓库、覆盖AI组件的全生命周期安全。

企业可以直接把它当作AI原生基础设施，而不是「裸金属+裸OS+自己折腾」。

而OpenShift AI相当于集成了「AI工具链+模型推理+模型管理+多云AI适配+Agent开发支持」的AI原生版OpenShift。

OpenShift AI包含端到端的AI/ML生命周期支持，整体打通了从开发、训练、部署，到持续监控、运维的AI工作流。

同时，OpenShift AI也继承了OpenShift的多云、跨云一致性体验。

这就又能让人少踩很多坑，目前老曹服务的几个大客户，都开始规划混合部署了：涉及合规的放本地，开放服务的放云上，低延迟需求的放业务现场…

用了OpenShift AI，客户在本地生产环境验证成功的大模型方案，可以轻松搬到任意地点（本地机房、托管IDC、公有云、边缘节点）。

讲完这些，老曹在白板上擦了又画。

开始了他的总结：还有一点至关重要，红帽AI是100%开源的，选择自由，用着放心，我很看重，客户们也很看重！

基础设施搞定了、AI推理性能上来了，怎么与业务场景结合，更好的服务业务应用呢？

老曹看我还有疑问，于是讲出来他最后一个妙招——

这次他算是跟对人了：红帽已经联合CIO社群组织、核心企业CIO、上下游企业等，成立了企业级AI+专家委员会，与客户、伙伴一起共创，加速企业级AI落地。

比如，这份报告，就是他们汇聚了百位大型企业CIO真实调研数据，深入分析AI在企业级应用中的实践，对AI落地太有帮助了……

老曹已经有客户加入了“组织”，老曹自己也要加入，大家一起“共创”。

我一听，也立马来了精神↓

如今，无论是国家层面还是产业层面，都非常看重开源，红帽AI不仅100%开源，还提供广泛的兼容能力、多环境的一致性体验、覆盖AI全生命周期的方案…，而且，现在连探索行业落地的组织保障都有了。

红帽AI这趟车，千万不能错过！

来源：特大号

标签：一体机烂尾 deepseek 红帽 deepseek一体机

本文地址：http://news.43b.com.cn/a/1042086.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!