AI Infra的起飞前夜,跟两位创业者聊了两小时

B站影视 欧美电影 2025-03-27 14:47 1

摘要:的确,近期围绕DeepSeek的新发布实在太多了,乱花渐欲迷人眼。从春节期间企业抢先宣布接入DeepSeekR1、继而接入满血版R1,到DeepSeek一体机的出圈,再到国民应用微信的接入,潮潮迭起。可以说,从B端到C端,几乎彻底沸腾了。

“人生不无聊,有太多变化,太多好玩的事情发生。”

的确,近期围绕DeepSeek的新发布实在太多了,乱花渐欲迷人眼。从春节期间企业抢先宣布接入DeepSeekR1、继而接入满血版R1,到DeepSeek一体机的出圈,再到国民应用微信的接入,潮潮迭起。可以说,从B端到C端,几乎彻底沸腾了。

几乎所有做智能体的公司都很兴奋,寻找落地机会,还有做企业级应用、知识库的公司也在适配,这些都是能赚钱的领域。DeepSeek让适配变得容易,是因为它采用了多专家路由,并且平衡了计算、通信和存储之间的关系。这些都为未来半导体产业指明了方向。”

在AI和半导体领域持续创业的黄新平对于DeepSeek所带来的机会,做出了非常乐观的判断,言语间充斥着创业者独有的兴奋和期待。

同样,亲身经历了百度、腾讯、第四范式等国内IT基础设施10余年变化的谭中意,更是对DeepSeek带来的机会高度认可:我们现在处于AI Infra新一代的起飞前夜。

不过“起飞”不是一句空谈,背后有无数已知或未知的难题有待探讨。

3月11日,51CTO独家技术访谈栏目《AI实战派》有幸与算力自由创始人黄新平、中国开源推进联盟的常务副秘书长谭中意进行了2个小时的对话,我们从DeepSeek的生态朋友圈聊起,探讨了很多AI Infra创业中,那些“开放但又必须回答”的问题。

比如,在各家OEM厂商适配DeepSeek过程中,有哪些独创性空间?黄新平举了一个硬件互联的例子。硬件互联不仅涉及硬件,更多还是软硬件一体的配置的问题。“以CPU设计为例,CPU的缓存空间和计算单元,以及包括通信的配比,都是非常秘密的一件事情。基本上都是花了无数代价,才能找到一个合适的配比,从而做出一个合适的芯片。”

此外,回顾过去中国基础架构不断更迭的20多年,谭中意总结出一个AI Infra的价值铁律——“只有AI应用的流量起来了,底层 AI 基础设施的价值才会真正体现出来。

再比如,关于AI Infra创业“如何摆脱纯卖API不挣钱、找到PMF”的问题,两位老师提到了破局的症结,即AI Infra的价值—— “人是为价值而付费的,不是为资源付费。”黄新平还给出了一个很好的打法:

“比如AI生成图片,用户文生图生成了一张图可能只需要花几分钱到一毛钱,但是如果你拿这张图去帮设计师去交付了一个东西,你可能就会赚到100-200块钱,这时候那你的定价一定不是用几毛钱来定价的,而是用那100到200块钱去定价,这时候你才找到了你的PMF。”

大模型时代瞬息万变,接下来的3到5年,AI Infra的视野又会是什么格局?

嘉宾们统一认为,“性能要上去,成本要下来”将是这段时间的主旋律。谭中意判断,未来3年可能并不会出现革命性的东西,数据飞轮和实时性都难以达到,重点工作依旧是新有能力的进一步提升,比如更高效率的训练,更低成本、更大容量的推理。

然而,这并不意味着不会有新的范式出现。黄新平判断,也许在未来,通信互联架构方面,包括像内存池这样的技术,也许会出现新的计算范式。而在训练层面上,显然 AI Infra 是朝着大机方向去的,而在推理层面上可能会变成更多的异构计算

“历史是循环的,从大机拆成小机,现在又用小机聚合成大机。”因为,更快的互联技术,就意味着可以在一个相对大一点的分布式计算系统,性能是能上去的。

黄新平对于中国AI Infra的互联技术的突破满怀期待。“互联部分,国内外差距尤其大。国内的NVLink没有,IB(InfiniBand)也没有,而英伟达其实已经不满足于现状,开始对硅光互联进行研究,还有谷歌奔着800G、1.6T这样的互联速度去前进。所以这一块的话,国内还有很大的空间可以做,我判断互联这个层面上可能会进步更快。”

潮水涌来,人们总是首先将目光投向一夜爆火的AI应用。但殊不知,与之成长与进化的AI Infra,也正在开启新的创业故事。

即便我们判断未来趋于渐进式发展而非革命性变化,但有需求就会有人去做。

料还很多,还有很多关于诸如百度、腾讯、爱奇艺、英特尔、谷歌这些知名企业在过去20余年的潮落潮起的取舍叙事,可谓妙趣横生。

篇幅原因,下面是整理的访谈内容,供诸位阅读。

AI实战派:DeepSeek作为大家看好的生态,它的朋友圈都有哪些,又会扩大到哪些领域呢?

谭中意:我最近写了一篇博客,称 DeepSeek为国运级创新,不是因为它在技术创新上能与 transformer 或 GPT4 相提并论,而是在于它在短短两个月内就在国内外达成了初步的产业共识,这是前所未有的。我将它的生态圈分为四层。最底层是基石层或基础设施层,包括 GPU、CPU、操作系统、网络硬件、IDC 一体机等。第二层是云服务层,涵盖公有云、私有云以及 Maas 等服务厂商。第三层是企业软件层,像用友、金蝶等做的 ERP、CRM、BI 软件以及行业软件,它们纷纷用 DeepSeek增强自身功能。第四层是甲方软件层,甲方将 DeepSeek集成到自研业务中,主要用于提升效率。目前来看,DeepSeek在生态圈内已经初步形成了产业共识,国内外的知名云厂商除了谷歌外,都支持它,芯片厂家也都宣称支持,软件厂商更是如此。我觉得生态圈的形成特别有意思,它已经成为了事实标准

黄新平:我这里从时间维度来说。首先是国内服务厂商迅速跟进,各大厂商的速度之快超乎想象,他们迅速推出服务。因为 DeepSeek开源且是 MIT license,不受限制,厂商们不缺资源和人,能快速搭建应用,服务更多用户。接着是国产芯片厂商迅速表态,生怕落后,都宣布完成适配。然后是各地反思为什么DeepSeek没有出现在本地。之后是一体机 OEM 厂商行动起来,发挥传统优势制造一体机,但我认为一体机不仅仅是硬件,更多是要解决端到端的问题,目前还远未达到这个层次。长远来看,几乎所有做智能体的公司都很兴奋,寻找落地机会,还有做企业级应用、知识库的公司也在适配,这些都是能赚钱的领域。

DeepSeek让适配变得容易,是因为它采用了多专家路由,并且平衡了计算、通信和存储之间的关系。这些都为未来半导体产业指明了方向。按照这个方向去做是没有错的。我认为半导体产业会发生变化,从半导体层面的优化来看,尤其是通信库这一块可能会有人重写。像刚才提到的 3FS 这样的东西,未来会变得更加通用。它现在是为了训练而设计的,未来会在更通用的层面上做更多适配和应用场景的开发,也会有人去做这些工作。我觉得这对 AI 推理领域是比较重大的影响。

谭中意:补充一下,我觉得在上层应用层,影响也非常大。在 DeepSeek 出现之前,国内是没有可以用的,因为效果好的 LLM 例如 Claude 在国内是不能落地的。但 DeepSeek 不仅开源,还在国内通过了注册,是一个合规可用的产品。所以基于 DeepSeek 进行 Agent 开发,把上限打开了,降低了难度,让大部分应用开发人员非常高兴,因为他们终于可以在各个场合使用这种高性能的大模型,不用担心部署和合规问题。

AI实战派:AI Infra经历了哪几个阶段,DeepSeek之后发生了哪些变化?

谭中意:好,我简单回顾一下。首先,AI 推理最早是从谷歌的三篇文章开始的,那三篇文章介绍了大规模分布式存储和计算是什么样子的,然后 Hadoop 就出现了。在国内最早采用的是百度和腾讯。百度在2009年开始研究,2011年成立第一个基础架构部。这是第一代 Data Infra,主要特征是大规模分布式存储和计算,主要用于离线计算,给商业分析人员生成分析报告。主要的技术栈是 MapReduce、HDFS,再加上 HBase。虽然当时 MapReduce 很慢,但大家也能忍着用,因为业务确实需要。这是第一代 Data Infra 基础设施,它是为大数据准备的,还不能称之为 AI 基础设施。

直到2011年、2012年深度学习开始火起来,各大搜索厂商开始把搜索算法从最初的逻辑回归切换到深度学习模型算法,对底层数据和计算的要求更高了。推荐也越来越往前走,尤其是抖音出现后,大家更明白推荐要有好效果,必须跟实时数据相结合。这时候我觉得已经进入到了 AI 基础设施的第一代,也可以称之为基础设施的第二代。它主要的场景是给搜索、广告和推荐服务,相对于第一代大数据infra的不同在于它加了很多实时计算的内容。实时计算就是当时 AI 推理的主要工作,我在第四范式的时候也广泛调研和参与了 AI 推理的相关研究。AI 推理主要保证机器学习从训练到推理阶段的数据高质量供给和一致性,这其实是最具挑战性的。当时也出现了一堆创业公司,像tecton等,这些创业公司其实都是在整个 pipeline 里提供高效的数据供给。这一代最有代表性的大公司是 DataBricks,它的看家本领就是实时计算和批处理阶段的东西。这是 AI 基础设施的第一代。

然后大模型出来了,这时候 AI 基础设施的主要工作是支持大模型的训练。但能干这个活的公司不多,广大研发人员其实很尴尬,因为应用场景没有起来,流量也没有起来,干活也插不上手,主要是因为大模型的能力还没有达到商业可用,用户不买单,这是一个很郁闷的阶段。

直到现在,终于有一个开源的、性能不错且成本低的模型出来了,这时候广大应用开发人员终于可以去拥抱新的大模型了,然后可以转型成为大模型应用开发人员。他们一转型,应用起来了,流量就上来了,各种各样的需求就出现了,对底层 AI 基础设施的要求也从训练变成了大规模推理,怎么去扛流量、怎么去做稳定性这些事情。之前大家可以看到,有些大厂会说服务经常被拒绝,但除了 OpenAI 之外,其他都没有,因为各家流量都没起来。现在只有 DeepSeek出来之后,发现流量真的起来了。而只有流量起来了,底层 AI 基础设施的价值才会真正体现出来。因为这时候你对底层 AI 基础设施的所有调优都会直接转化为成本的缩减、性价比的提升。

之前,大批AI Infra的研发人员是没有用武之地的,因为没有流量,但现在流量起来了,AI Infra提升一点就能省很多钱,这时候广大 AI 基础设施研发人员也就有用武之地了。

AI实战派:很透彻。因为现在有流量、有数据,可以看到底层调优后数据有多大提升,成就感立马就来了。

谭中意:Infra始终是跟流量打交道的,流量不出来、上不到一个等级,你的技术价值就体现不出来。因为同样的应用,扛十万的 QPS 和扛百万的 QPS,架构完全是不一样的。

AI实战派:对于从业者来说,大模型时代以后,他的核心竞争力是不是要重新定义一下?

黄新平:这个确实不太一样。大概从 AI 刚开始兴起的时候,我一开始做这一块,第一件事其实是服务于公司内部的开发人员,那些科学家。当时 GPU 很贵,他们基本上一人占一台,环境很难处理,数据也不容易拷贝上来。所以我在爱奇艺进去第一件事就是要优化这一块的使用,做的第一件事就是资源池化,先把 GPU 池化管理起来,然后能够动态调度训练任务和开发任务,这样能达到节省成本的效果。

很快 AI 就要进入应用了,最早的时候是训练,然后在后面的话,搜广推是最有价值、最有用处的一块。当时最早的时候,线性回归这些模型的效果跟深度模型效果差别还是很大的。当时爱奇艺一年的主要收入其实来源于广告,接近百亿级别。而当时我们看到像谷歌的 DeepMind 那样,它号称能够提高10%的效果,那10%的效果就意味着十个亿,重赏之下必有勇夫。然后当时我们团队里面就把推理速度优化了一下,因为上了深度模型,它推理速度就不行。从你打开界面到看到广告一共是100毫秒的时间,给深度模型做推理的时间,99%要在25毫秒之内完成。当时Wide&Deep 因为是个深度模型,跑下来要50多毫秒,最后优化到7个毫秒左右,这个东西就变成可用的了。

还有一个就是数量方面,因为爱奇艺日活在比较好的时候,是在一个亿左右,每天对外推送的广告推送服务量是万亿次的级别,所以这个庞大的集群在底下去服务着,你的效率一点点提升,省下来的就是成百上千台服务器。推理的价值就体现出来了。

AI实战派:那大家都用上大模型之后,您认为是提升推理速度还是其他方面更为重要?

黄新平:我觉得推理速度其实就表明了你的成本。现在大模型除了能力之外,还有成本。大模型要推广,首先要能解决问题,我觉得这个基础能力现在是有的。但对于复杂的应用,其实不是简单一个模型就能解决所有问题,它往往需要梳理整个 TOB 的业务流程,在其中找到大模型可以发挥作用的部分,这一部分是需要比较漫长的开发过程,也比较昂贵。这是能力方面。

第二部分就是成本,你一定要成本足够低,它才能够体现出更好的价值。成本其实来源于软硬件两方面的优化。一方面,软件的模型结构,像现在的 MOE 这样的结构,其实使推理成本大幅度降低。如果你的优化加上硬件的发展,几条加起来,可能不是简单的摩尔定律那样一倍一倍的提高,而是指数级的提高。成本大幅度下降之后,就会释放出巨大的使用空间。

AI实战派:那硬件方面,底层适配这块呢?

黄新平:适配是一块。除了英伟达的 GPU 本身对国内是禁运的,现在看起来比较好的,比如671B 的参数,正常配置是 H20 的141G 的。一个八卡机才能完整地推这个满血版,但 H20 的141G 其实在边缘上,很有可能就会被禁,更高档的完全是没有的。所以这一块的话,国产芯片必须要跟上来。现在国产芯片很多完成了功能适配,能跑,但有些国产芯片其实跑的不是满血版,跑的是蒸馏版的更小的,没有实际价值。真正跑到满血版的时候,性能必须达到跟国际相当的水平。

你的硬件已经设计成这样了,那你就要学习 DeepSeek开源的做法,在自己的硬件特性上,实现动态任务调度、高速通信、负载均衡等。这些事情需要去写算子、写底层的东西,有时候国产芯片还没有公开文档,所以只有他们自己才能做。

AI实战派:第三个问题。既然商家都在适配,那现在的技术差异性体现在哪,独创性的空间在哪儿?

谭中意:好的。目前做适配的主要是芯片厂家,而使用这些适配成果的主要是云服务厂家。我觉得基础差异主要体现在芯片设计和网络组织条件上。而最大的差异点其实就是性能和成本。同样是满血版的配置,你用什么样的芯片来支撑,成本是多少,能提高多大的QPS,延迟又是多少呢?我们可以来看一个极致的例子,DeepSeek公司自己在最后一篇论文中提到,他们用H800搭建的集群,服务ROI达到了545%,这是将它所有性能极致的地方都加进去后的结果,其实已经做到天花板级别了。以此为参考,你能做到多少呢?

谭中意:据传它是用1000多张H100卡来支撑同样的量,你能不能稍微差一点,用2000张卡就能扛住同样的流量,或者用更便宜的卡来扛更多的流量呢?这其实就是拼实力的问题。拼实力就在于你怎么去理解DeepSeek的模型架构,怎么把性能、存储和计算针对这种场景调得更好。我觉得在技术上,各家有各家的做法,但最终还是要看成本和性能上的PK。

能活下去的厂商,现在看芯片厂家那么多,之前大家都各说各的好,说各自的算子有什么特点,但现在说实话,有了一个统一的benchmark,DeepSeek服务,那么在这个服务上你能做到多少,服务集成厂家心里就有数了,能给我什么样的成本,能跑什么价格,能跑什么性能。如果跑不起来,那么可能两年、三年后这个公司就出局了。

AI实战派:性能指标方面,大家能形成一定的共识吗?

谭中意:我觉得还是要看大厂的指标,因为目前很多公开测试的数据,说实话都是带有一定水分的。尤其是甲方,就是芯片厂家提供的数据。但最严格的测试一定是大批量采购芯片的厂家做的,例如腾讯和字节,因为谁是骡子谁是马,一遛就清楚了。如果跑不起来,真的就跑不起来。

黄新平:我从几个方面说。一方面,适配既体现了技术,也体现了生态,这两个都有。在生态方面,咱们国产芯片里有一些是扩大兼容的。从扩大兼容这个层面来说,按照道理,它的适配会变得容易一些,能跑起来是没问题的。而非扩大兼容部分,通常你就要去写相应的算子。做运行时态的适配要难得多,这是从功能上适配。从性能上来说,我看完DeepSeek第六篇论文之后,我不觉得现在国内有哪家芯片可以做到这个水平。

因为实际上,大家可能很少会直接去看论文。原来很多的优化是我跑一个模型,用一个模型来承接一系列的请求,如果有更多的请求,就跑更多的模型,来实现分布式或者并发,也就是扩张的做法。但其实DeepSeek第六篇论文完全不是这样子的。它是把里面的每一个小专家拆出来,每一个计算单元拆出来,在所有的卡里面均匀分布。它是在上面做这种底层的每一步运算的控制,甚至在最底层的attention部分还分成了两个,所以它已经细致到每一个层、甚至几个算子的调度都非常精细。这种精细来源于它对任务均分的方式,尽可能让每个任务运行的时间都差不多,然后再给任务切分的时候尽可能切分得一致,从而充分保证整个流水线被填满。这对计算能力的评估、对计算通信的时间评估、对时间掩盖的控制,以及对里面很多细节部件的控制要求都非常高。而且它是跨节点的,包括跨节点之间的大规模细粒度控制,对于通信部分的要求特别高。

首先来讲,咱们国内的芯片到现在为止还没有能够跟NVLink对标的东西。如果没有,你就弹性不起来。在节点和节点之间还好,大家都可以用IB,但是你的GPU直接支持又成为另外一个问题。原来很多是没有的,就变成了我在操作系统层面上要做一次转接,那这样你的可控程度就远不行了。所以在这方面,我觉得在大规模承接能力上,现在还没有做到,还是非常大的一个挑战。所以各家所谓的适配,现在还是适配到我单独跑一个模型,把一个模型都布在里面,至于效率如何,我不知道,反正它能跑就行。我压榨性能也就压榨到此为止。在中间其实有很多部件的浪费,现在是完全没办法优化到那个层次的。这既耗费技术资源,也耗费大家在上面花的时间和耐心。因为原来做这个圈子里的人才也非常罕见,而且非常贵。

AI实战派:既然这么难,那我怎么找到真正属于自己的独创空间呢?刚才聊到大家都在一个性能基础上跑评分,跑不赢的可能就被淘汰。他们会不会找一些自己差异的地方来弥补。

黄新平:还是有的。比如原来大家在硬件互联这一块其实是比较难的,它其实不光是硬件,是软硬件一体的配置。原来做CPU设计或者做处理器设计的时候,它的缓存空间和计算单元,以及包括通信的配比,都是非常秘密的一件事情。基本上都是花了无数代价,才能找到一个合适的配比,从而做出一个合适的芯片。这是原来大家都做不到的,当然其实各家在这个上面也有各自的侧重。国产有一些芯片的显存特别大,做到96G或者更大,有的直接就上高速显存HBM,这种带宽比较宽的显存,这都是它的特色。在这种特色之下,其实你要花心思把DeepSeek的结构细拆下来。你不一定非得像DeepSeek第六篇论文一样拆成那样才能做到最好,而是要靠自己去摸索一条独有的路,把自己的性能提起来。也许有一种可能是,我不一定要比老虎跑得快,我只要比你跑得快就行。

AI实战派:现在我们能发现一个有趣的现象:R1适配国产芯片的速度挺快的,但像其他的推理模型,用国产芯片就很难做到。原因是是什么?

谭中意:不是R1去适配国产芯片,而是国产芯片去适配R1。因为国产芯片在底层做了自己的芯片设计、优化、驱动和算子,所以它可以根据DeepSeek开源模型所涉及的各种算子来进行调优。而且DeepSeek的模型权重、推理代码和模型结构都是开源的,所以适配起来会比较容易。反过来,让DeepSeek的工程师去适配国内各种芯片,这个活儿没法干。假设我们将阿里通义的模型拿出来,口碑相当不错,但你要去让它适配各种CPU/GPU芯片,这成本太高了,不合适。

AI实战派:对,我觉得容易理解一些。因为千问本身也是Transformer架构,但百度的模型架构虽然和它同源,肯定也有一些自己的东西。

谭中意:所以说我觉得这个事情就在于,如果模型是基于某种架构,比如Llama架构,而芯片已经支持llama架构,那么适配起来会比较容易。就怕有些算子没有覆盖到,在你的芯片上跑得很差,导致整个性能很弱。所以我觉得还是应该让开源模型成为设计标准和产业共识,让其他国产芯片去适配它,然后在甲方和乙方之间进行部署。如果反过来让模型去适配各种芯片,成本太高,不合适。

AI实战派:为什么DeepSeek自己不去适配一些芯片,然后形成一个标准?

黄新平:我觉得从两个层面上来说,在过往的芯片适配上,大部分其实都是奔着训练场景去的,训练场景的适配要远难于推理场景。DeepSeek出来之后,大家第一时间适配的是它的推理场景,因为在那之前,那些新模型的推理并没有什么轰动效应,你做了也就是做了,然后说我们适配了拉马,更多的是在训练场景。推理其实做得也就这么一说,形不成效应。这是一个层面,就是训练和推理的难易程度不同。

然后其实大模型时代的适配已经比以前简单太多了,因为我做过卷积神经网络(CNN)那一块的适配,非常难。因为你会有前处理、后处理,会有很多非标准算子的东西,还有图形学的东西,而国内的芯片都不是像英伟达GPU那样既有图形处理又有AI计算的算子,你只能靠CPU去算,那很痛苦。而且各自还会出一些所谓的奇技淫巧,比如我觉得这个算子不太好,我自己写一个算子,把几个算子融合起来改一改,然后再写一个新算子出来,那就会导致这个东西又不行,又得重写。写完了之后,你的精度适配等方面都会有问题。但其实现在推理已经变得更简单了,所以这次适配就会变得比较简单。这是另外一个层面。

我觉得很多芯片厂商第一时间说他们适配了很多,但其实大部分都是小模型级别的适配,并没有真正满血适配。真正满血适配的还是比较少。你想,显存都不够,还有没有这个别的,你当时还没有K-Transformer的加持,这个能力顶多也就是做个单卡的,做个14B、7B、14B的,反正能适配。很多芯片厂商只是在新闻稿里说他们适配了很多,但你不要看他说了什么,要看他没说什么。他没有说我适配了多少B的模型,那通常是个很小的模型。他说我适配了满血版,他没有说每秒处理多少个tokens的速度,这个说明他的性能不行。而且那个水很深,你的上下文开多大什么之类的,这都会严重影响性能,他都不会去说。所以刚才谭老师说的,你得看大厂内部的验收报告,不能看PR报告。

AI实战派:评论区有个问题,如何为开源模型快速构建有生命力的开源生态?

黄新平:这个问题太大了。

谭中意:这个问题就是怎么为开源模型设计一个开源生态。但我觉得开源生态不是设计出来的。像英特尔,甚至像微软,他们也说要设计一个开源生态,但做不出来。开源生态的成功都是赶在一个比较好的时间点,再加上一个巧妙的策略设计,再加上生态的合作伙伴一起共同努力长出来的。所以开源生态我觉得很难说,有人问华为砸1000个亿能不能砸出来第二个DeepSeek,答案是很难。因为每一个成功的开源生态都有它自己的天时地利人和的背景。我们能做的事情,可能只能是做一些规划,然后遵循一些基本实践,最后能不能真正做出来,还得看时机对不对。

AI实战派:现在开源免费的产品已经很多了,包括DeepSeek、千问。对于基础设施层来说,这一类产品的PMF跟之前的时代相比,是不是有新解?

AI实战派:首先我们先说,AI这一类产品,PMF是怎样一个现状,有没有解。因为大家都知道做MaaS的话,基本上像包括云厂商其实都不挣钱,能保证持平就已经很难了。那对于这一类产品来说,有没有什么好的想法?

黄新平:我觉得但凡你有很好的想法就可以出去创业了,这真的是一个世界性的难题。总体来看的话,我觉得这块就是,当你现在所做的事情还是在用你的资源价格来定价,或者利用你的BOM(物料清单)这些东西来定价的时候,你是没有什么利润空间的,这个时候其实是找不到所谓的PMF的当你创造的东西是以它创造的价值来定价的时候,这时候才真正有。比如AI生成图片,我文生图生成了一张图,可能只需要花上几分钱到一毛钱,但是如果你拿了这个图去,你是设计师去交付了一个东西,你可能赚到100到200块钱,那你的定价一定不是用几毛钱来定价的,而是用那100到200块钱去定价,这时候你才找到了你的PMF。我觉得基本想法就是这样。

AI实战派:那么这个算力应该包装成什么样的价值呢?

黄新平:如果真正去做,这真是个生态。一定要让别人在这个生态里都赚到钱。就像我刚才补充的,因为我之前在英特尔负责过英特尔的软件生态。英特尔在生态层面上其实是做得非常好的,源于他的江湖地位,他当时CPU的占有率是非常高,99%点几的市场占有率。所以英特尔当时内部有一句话,凡是计算都是英特尔的。所以他在这个地位上,就是要推广,尽可能让所有东西纳入计算这个范畴来。所以英特尔做生态有一件事情就是让大家在这个生态里都赚到钱。一个生态健康发展是在各个层级上,每个层级都能在这个生态里生存,甚至生存得很好,这就是一个良好的、健康的生态。所以你如果要做,就是要让别人在里面赚到钱,让专业有分工,每个人做自己层次上的事情,这样才能形成一个良好的生态。当最上游接触到用户,拿到以用户的价值定价的物品的时候,它会把整个价值往下传导,一直传到Infra这一层上来。

谭中意:黄老师讲得挺好的。人是为价值而付费的,不是为资源付费。如果为资源付费的话,你的利润空间非常小。

谭中意:目前我觉得在AI Infra这个领域还没有出现大规模创业机会就在于没有产品化、没有标准化。没有产品化、没有标准化的话,都还是大厂内部的特定的一些软件和系统,很难进行产品化对外形成商业公司。所以我觉得可能目前还没有Ready。

很多做AI Infra的开发人员,现在感觉还没到创业的时候,先在大厂里蹲着吧!蹲了两年,等标准化了、产品化了,那时候就可以出来了。我觉得可以。

AI实战派:黄老师怎么看?

黄新平:我们做了先行者,在前头探探路。

谭中意:这块的话,首先还得有业务场景出来。当年搜广推能够持续优化,就在于搜广推的收入是巨大的。只有这么一个高价值的商业场景,才能支撑起一个庞大的算法和工程团队。

AI实战派:首先得先让他看到能赚钱,然后你才能谈省成本的事。

黄新平:没错。

AI实战派:谭老师,所以您认为未来还得等两年才能出现一个成型的机会。

谭中意:我不是说现在不能做,而是说大规模的创业机会出现可能在两年之后。但先做的人有先发优势,就在于他对这个市场的迭代和认知会更深。当机会出现的时候,他有先发优势。你知道,就像炒股似的,现在不好,你不能说两年后再进场。你现在可以先练一练,先把一些坑给占住。

AI实战派:因为市面上技术路线也挺多的,在开播之前也聊了一些像超算、智算等技术路线。业内有中心化训练、联邦学习两种主流方式。那现在两位老师是如何看待这些路线的?

黄新平:我觉得从训练技术这个层面上来说,其实DeepSeek在这方面给了一个巨大的变化。这个变化就在于原来大家需要堆卡,顺势堆十万卡、二十万卡,像星际之门那样往上堆。它带来的一个问题是什么呢?其实你知道,堆到万卡的时候就出现了一个巨大的困难。在英伟达的方案里,它端到端的那根线,不能超过50米。也就是说,你要在一个50米的范围内放上一万张卡。电力、散热都会成为巨大的挑战。当你做不到的时候,那就意味着你的通信效率会下降。大家知道,在大规模并行计算的时候,有一条定律叫阿姆达尔定律,是说你的串行部分制约了你的增速比。如果你90%都是串行计算,只有10%是并行计算,那你最好的效果就是让那10%全砍掉,一秒钟都不要花时间算完,那你还需要90%的时间来算,那你的整个增速比是非常小的,没有什么用,你加了很多台机器,一点用都没有。

黄新平:所以要把串行的部分减到越少越好。这就是为什么在各个大型的训练场景里,一定要优化它的通信的原因。那在原来堆卡的情况下,就意味着你的通信占比要控制得很小,是非常难的事情。因为你想想,你每台机器有八块卡,里面再插 8 个IB的网卡,然后你几个的话就把一个32口或者64口的IB交换机就占满了。然后你当有多层要占满,又要分二层、三层,每加一层交换机,你肯定就会有额外的负担,而且点到点之间的连接就不再是一对一了,就会有跳距离了。那你在调度上要考虑这些调度算法,所以那个东西其实越往上,它的工程难度越来越大。就是这种Scalability(可扩展性)其实是整个非常难的。然后DeepSeek用了一个很便宜的价钱来做,是因为它是按照MOE(Mixture of Experts,混合专家模型)每一个专家去训练的。这样的话,每个expert很小,它不需要那么大的东西,也许就像刚才说的分布式训练成为了一种可能,不需要一万卡都堆在一个房间里,然后可以分机房,可以分得更远一点,也许成了一种可能。这是从训练层面上的。当然,袁老师(硅基流动创始人)也说了,99.9%的算力都花在推理上。

黄新平:那推理就变成了另外一个需要去做的事情。原来大家觉得推理没啥,无非就是拿一个模型,跑完了以后再扩展一个模型。但DeepSeek告诉你,我把里面每个小部件拆出来,统一混在一起进行推理,这就给大家这一块带来了无限的想象力,所以这一块其实是一个很大的变化。从技术层面上,能看到推出了一些新的东西,在推理路线上,其实都带来了一些新的可能性。

黄新平:其实不是说你想不到那个东西,而是你要把里面每一个算子或者几个算子组成一个团,然后动态地去调度,那你的调度的复杂度,而且你的整个工具,你要有很多工具,你要知道它到底花了多长时间,调优达到最好的一个结果。你往往在做一件事情的时候,你要具备很多的周边能力,这些能力其实构建是比较难的。

AI实战派:所以,大多数人基本上堆不动卡了。

黄新平:是的,又贵,然后又耗电,然后在中国还有一点,供应也有难度。

谭中意:我觉得这个问题其实对于工程师来说,更多的是关于如何学习新的技术,才能保证自己不落伍。现在我觉得目前AI的Infra领域是百花齐放的。目前能看到的很多相关的一些项目,都还处于比较早期的阶段。我觉得有几个判断是可以参考下的。第一个就是看大厂背书,像DeepSeek这种开源的大模型所使用的。第二个看这个项目的开发者友好程度和迭代速度。一个开源项目,如果它的开发者友好做得很差,很难上手,那肯定用的人少。

第二个,看它的迭代速度。如果迭代慢,那么肯定它也适应不了这种AI的快速发展。所以说一般来说,在这种快速增长的领域内的开源项目,我要去选择的话,我肯定会选第一个是大厂背书的、有大厂在用的。第二个就是它自己的社区真的很活跃,发版也快,然后上手也快的。我们能看到一些项目,像ollama长得很快,Dify涨得也很快,第一个是它们有大厂背书,第二个是社区活跃,迭代速度快,上手容易。

黄新平:我再补充一点。我认为如果从从业者的角度来看,应该以不变应万变。一定要把基础打扎实。其实在分布式计算、性能优化等领域,我做了这么多年,可以毫不客气地说,编译器20年来没有什么新理论,唯一的新理论就是SSA(静态单赋值),除此之外没有什么特别新的理论。所以很多理论都是已经非常成熟的了。当你没有基础能力的时候,你看不透这些东西,会觉得什么都新鲜;但当你有了扎实的基础,你会发现万变不离其宗,那些优化手段、那些基本的东西在起作用。所以一定要打好自己的技术基础,积累好自己的技术功底和工具。

AI实战派:接下来就是我们要讨论的未来3年、5年、10年的一个设想或展望。

黄新平:我觉得谭老师比我更有发言权,我对未来没什么特别的想象力。

谭中意:首先我觉得 AI Infra 说到底还是为 AI 业务服务的。我们可以做个简单判断,AI 的大模型业务在未来3年、5年内能发展到什么程度。我觉得未来3年内,它做的事情还是现有模型能力的进一步提升,以及现有模型的推理进入到各个企业的具体环节,比如怎么更高速地训练,怎么以更低的成本、更大容量地进行推理。我觉得未来3年可能不会出现更革命性的东西,像数据飞轮和实时性,我觉得在未来3年还很难达到。所以我觉得未来3年左右要做的事情,可能还是如何更好地利用芯片,如何更好地进行大规模训练和存储,把成本降得更低。

黄新平:因为我看过一些半导体相关的技术,包括那些超出现在范畴的技术。通常来看,其实都还在3到5年内很难落地。比如存内计算、基于量子的计算方式等,都非常难,很难成为主流。我觉得刚才一再强调通信的重要性,也许在未来,通信架构方面,包括像内存池这样的技术,比如CXL Memory(假设为某种技术)等,也许会出现新的计算范式,这是可能实现的。它不是一个革命性的,更多是演进性质的技术。未来也许会变成这样一个场景:通过自动化调度、自动化负载均衡,以及更好的负载均衡算法,不再需要切分计算长度大小,而是通过任务动态调度的方式,也许能做到这一点。总体来看,还是朝着谭老师说的方向发展,即性能要上去,成本要下来。

AI实战派:做基础架构,必须有前瞻性地看接下来的3年。那么AI Infra接下来的演变速度会不会比之前的Infra更快一些?

黄新平:如果我们关注性能或者从这个角度来看的话,其实半导体这块基本上我个人认为是快要走到头了。因为现在都是四纳米,而整个性能提升,从理论上来说有两个部分构成:一个是半导体的制程,另一个是半导体设计的微体系架构。总体来看的话,就像英伟达的B200这样一个层面,它已经做到了单个芯片能做到的最大面积,已经无法再扩展。后面有一些美国在单晶元上做整个大芯片,把功能都变成片内互联,这种方式其实也是出于从另外一层面上扶正。从半导体层面上,性能提升已经到头了。另外一部分就是互联部分,国内外差距尤其大。国内像刚才说的,NvLink没有,IB也没有,而英伟达其实已经不满足于现状,开始对硅光互联进行研究,还有谷歌奔着800G、1.6T这样的互联速度去。所以这一块的话,我觉得还是有很大的空间可以做,所以我觉得互联这个层面上可能会进步更快一些。互联更快,意味着在一个相对比较大一点的分布式计算系统上面,性能是能上去的。包括像英伟达现在nv72那种,整个在做大机,你可以看到它在做大机,历史是循环的,从大机拆成小机,现在又用小机聚合成大机。

黄新平:我觉得未来在训练层面上,AI Infra 是朝着大机方向去的,而在推理层面上可能会变成更多的异构计算。因为现在虽然说是异构计算,都是GPU计算这种方式,但实际上很多业务是需要既有CPU计算能力,又有GPU计算能力,两者结合在一起才能完整完成。比如我现在都是纯GPU计算,也许我需要数据库计算,需要SQL语句,需要其他一些传统的CPU计算的部分,那这个还是需要的。我觉得这是我畅想的未来,可能这方面会有更多的融合。我觉得都是渐进性的,还算不上革命性的东西。有需求就会有人去做。

嘉宾介绍:

【黄新平】北京算力自由科技有限公司董事长,从半导体时代的编译器专家,到AI时代的算力架构师, 从摩托罗拉、英特尔时代的编译器开发与芯片指令集验证, 到Solaris内核优化并推动AVX指令集落地;从构建爱奇艺支撑亿级流量的深度学习平台,到实现BERT模型33倍性能跃升的TVM编译器深度改造,始终以底层技术突破驱动行业进化。尤其在AI工程化领域,有着深厚的积累。

【谭中意】 中国开源推进联盟常务副秘书长,参与创建中国互联网第一个基础架构部,并在国内推广Data Centric AI,在Sun、百度、腾讯、第四范式工作过多年,对AI Infra比较有经验。

来源:51CTO

相关推荐