摘要:国际市场调研机构IDC数据显示,2024下半年,中国公有云(IaaS基础设施/PaaS平台软件/SaaS应用软件)市场增速17.7%。这是两年来的高点。(报道详见《增速17.7%,中国云市场复苏,出现五个关键趋势》)
文|吴俊宇
编辑 | 谢丽容
2025年中国云市场正在因AI(人工智能)而复苏。
国际市场调研机构IDC数据显示,2024下半年,中国公有云(IaaS基础设施/PaaS平台软件/SaaS应用软件)市场增速17.7%。这是两年来的高点。(报道详见《增速17.7%,中国云市场复苏,出现五个关键趋势》)
各个云厂商AI投入越坚决,业绩增长越明显。
我们从行业相关人士处解到,字节跳动旗下的云业务——火山引擎2024年营收规模超过110亿元,营收增速远超60%,这超过中国市场大部分云厂商。2025年,火山引擎营收目标超过200亿元。作为后来者,这和第一梯队有差距,但差距快速缩小。
押注AI,在火山引擎内部被视为“没有退路”和“弯道超车”的关键机会。过去一年,火山引擎一个标志性动作是在2024年5月把大模型推理成本降低了90%以上(报道详见《字节做云三年,火山引擎迎来拐点》)。这个策略不仅降低了客户使用AI应用的成本,还使得国内其他中国云厂商几乎全部跟进降价。
中国大模型市场因为这场集体降价而爆发。IDC数据显示,2024年12月,中国公有云大模型日均tokens(token是大模型的文本单位,一个token可以是单词、标点、数字、符号等)调用量9522亿,是2024年6月日均调用量963亿次的近10倍。
火山引擎是其中的重要受益者。截至2025年5月,豆包大模型日均tokens调用量16.4万亿,相比2024年5月的1200亿增长137倍。第三方市场调研机构IDC数据显示,2024年大模型调用总量中,火山引擎市场份额46.4%,超过第二名和第三名的总和。
和火山引擎管理层2024年决定推理算力降价90%时的预想一样——全行业跟进降价后,客户试错成本变低,中国AI应用市场开始活跃。
2025年,AI产业的“飞轮效应”逐渐形成。模型、应用、算力三者相互促进,螺旋上升。AI产业“飞轮”快速转动的同时,传统的云架构(IaaS基础设施、PaaS平台软件、SaaS应用软件)正在被打破。它朝着“AI云原生”的方向演进。
火山引擎总裁谭待6月11日在“2025 Force原动力大会·春”提到,如果把时间拉长,把技术栈展开,我们实际正处于PC(个人电脑)到移动到AI三个时代的变化之中。在这三个时代里,技术主体在发生变化,PC时代的主体是Web(网页),移动时代是APP(移动应用),AI时代是Agent(智能体)。
应用范式的变化,也在带来云计算基础架构的创新。谭待在会后群访环节提到,过去几年传统云计算的产品创新是停滞的。IaaS、PaaS、SaaS的架构更关注技术分工,火山引擎更多是从企业业务视角重新划分IT架构。“AI云原生”会加速产品和技术的创新。
飞轮开始转动?
2023年-2024年,以大模型技术为引领的新一轮AI产业化痛点明显——模型、算力跑得快,但应用跑得慢。当时,市场担心,如果应用无法规模化落地,巨额算力投资将过剩,这一轮AI浪潮或将成泡沫。
但2025年初,模型、应用、算力的“飞轮效应”明显在加速。大模型基础能力每一次跃升,都在解锁新的AI应用。每诞生一批AI应用,AI算力消耗也继续指数级增长。
基础大模型的迭代速度,甚至比人们想象的更快。
过去一年,Scaling Law(规模定律,即大模型性能由算力、模型、数据规模决定)放缓这个观点时常被讨论。大模型性能提升速度一直被认为有限。但事实是,模型迭代在加速。
我们做了一个不完全统计,截至2025年6月11日,中国和美国参与模型竞争的10家科技公司(包括字节跳动、阿里、华为、腾讯、百度、DeepSeek、谷歌、OpenAI、Anthropic、xAI),在2025年刚刚过去的162天内发布或迭代了至少23版大模型,平均每7.0天就会有一版新的大模型诞生。
过去两三年,大模型迭代方向是单一的。大模型以大语言模型(LLM,纯文本模型)为主,提升方向是文本回答的准确率。但如今,“文本+图片+音频+视频”等多模态的大模型正在加速普及。
火山引擎智能算法负责人、火山方舟负责人吴迪今年6月初对我们表示,未来12个月,无论是中国还是美国,大模型有三条技术发展主线。
其一,多模态(文本+图片+音频+视频)推理模型会成为主角,这是当下正在发生的变化。
其二,视频生成模型将成熟可用,预计今年末将迎来一轮爆发。
其三,多步骤的复杂任务处理能力会大幅提升,预计今年末会有重大突破。
这意味着,模型性能还将大幅提升,AI应用也将还有大量新的升级方向。基于新模型开发的AI应用将不断诞生——事实上,AI应用在2025年已经呈现出普及趋势。
市场调研机构QuestMobile数据显示,截至2025年3月,三类AI应用(移动原生App、移动应用插件、PC网页应用)月活跃用户分别为5.91亿、5.84亿、2.09亿。2024年3月-2025年3月,AI原生App月人均使用时长同比增长32.7%,月人均使用次数同比增长53.1%。
更复杂的AI应用,比如具备多步骤复杂任务处理能力的AI应用——比如Muti-Agent(多智能体协作)也在酝酿。它让大模型能指挥多个Agent(智能体,可以理解成轻量级的AI应用)协同工作。
今年2月,AI创业公司“蝴蝶效应”推出Manus这类Muti-Agent工具,虽然还不够成熟,但这被认为是产品主流发展方向。未来越来越多的科技巨头、创业公司会沿着这条路推出并改进产品。吴迪的判断是,这类Muti-Agent工具在2025年末准确率将大幅提升。
新的AI应用不断诞生,也在让AI算力的消耗指数级增长。
IDC数据显示,2024年6月-12月,中国大模型调用量增长近10倍。吴迪的分析是,2025年底具备视觉理解、推理能力的AI应用普及后,一个基础任务消耗的算力可能就会超过10万token。届时,token消耗量会快速爬坡。
2024年9月,吴迪曾对我们预测称,2027年豆包每日token消耗量将超过100万亿,会是2024年的100倍(报道详见《大模型之战,除了低价还战什么?》)。
算力消耗增长百倍的判断看似惊人,但这其实已是业内共识。英伟达创始人黄仁勋今年3月在GTC 2025大会分析称,用户要花太长时间等待模型响应。这是因为推理效率还不够高。单位时间内,token数量提升10倍,计算速度也提升10倍,计算量将增加100倍。
这还只是推理算力的消耗。AI算力包括预训练、后训练、推理三部分。视觉理解和推理应用、多步骤复杂任务应用未来都需要提升准确率。因此,大模型要在后训练阶段进行强化学习。强化学习,能让大模型未来生成内容时能获得更高的奖励分数,进而提升回答准确率。这会使得后训练算力消耗快速增长。
吴迪判断,未来12个-18个月,预训练、后训练、推理,这三种算力将持续快速增长。其中,推理算力占比最终约为45%,后训练算力占比约为35%,预训练算力占比约为20%。
把云重做一次
AI模型快速迭代、AI应用加速爆发、AI算力指数级增长——这三件事情正在发生,传统云计算的IaaS、PaaS、SaaS三层架构也因此改变。火山引擎并没有按照传统的技术形态去划分这三层架构,而是按照业务架构进行了重新划分。
(云计算架构的演进 图源/火山引擎发布会)
其一,基础设施层,计算量级从Tflops(每秒万亿次浮点运算)到Pflops(每秒千万亿次浮点运算)再到Eflops(每秒百亿亿次浮点运算),企业要以GPU(图形处理器)推理为核心重建基础设施。
其二,大数据层,数据的量级、类型不断变化。从结构化数据,到非结构化数据,再到多模态数据,如何为AI构建好多模态数据湖成为新的挑战。
其三,应用和安全层。大模型和Agent开发平台成为关键要素。安全将是一切Agent运行的基础。
这种划分方式被认为更贴近企业实际业务场景。那么,火山引擎打算如何用“AI云原生”把云重做一遍?
其一,更高效的基础设施。它意味着能够实现更高的吞吐效率、更短的响应时间,甚至在同等算力的情况下降低更多成本。
一位火山引擎基础产品负责人对我们表示,火山引擎正在以GPU为核心重新优化计算、存储与网络架构。目标是让算力基础设施能在单位时间内更快、更多地产生token。这会让AI应用的响应速度会变得更快。
这已经取得了一定的成效。今年初DeepSeek爆发后,几乎所有云厂商都上架了DeepSeek-R1。在同一张“试卷”上,DeepSeek-R1跑得更快,意味着基础设施效率更高。AI基础设施创业公司TensorChord在今年3月28日的跑分评测显示,火山引擎吞吐效率更高、相邻token平均间隔时长更短。
MFU(模型算力利用率Model FLOPs Utilization)也是衡量基础设施效率的重要指标之一。字节跳动2024年2月发表的论文披露,在12288个GPU集群上训练一个1750亿参数的大语言模型时,MFU高达55.2%。上述火山引擎基础产品负责人今年6月对我们表示,火山引擎今年把MFU提升到了60%以上。
我们了解到,行业内其他云厂商Dense(稠密)模型的MFU通常在50%左右,MoE(稀疏)模型的MFU通常在30%左右。MFU更高,意味着火山引擎集群训练效率更高。其中一些技术也可以迁移到推理,让一张芯片压榨出更多token。在同等算力条件下,火山引擎可以拥有更高的毛利率。
其二,利用率更高的数据平台。它意味着企业过去积累的数据资产会被AI盘活。
上一轮数字化转型(2021年之前),传统云计算的数据中台常被诟病是“基建摆设”。企业数据存放在PaaS平台(包括数据平台、数据库、数仓等)后,并没有被真正充分利用。原因是,传统数据工具很难处理企业内部庞杂且有价值的非结构化数据。
但大模型正在改变这个问题。向量数据库、多模态数据湖,这些火山引擎主推的新技术,也是其他厂商发力的下一代数据工具。它们能够理解、挖掘、盘活企业数据基建中存放的非结构化数据资产。数据因此能与业务结合,真正产生价值。
其三,更全、更强的大模型。目前豆包大模型家族已覆盖文本、图片、音频、视频、多模态等领域。这意味着豆包能进入更多、更复杂的业务场景。
过去3年,大模型普遍只是指大语言模型。它是个“偏科生”,只能处理文本,不能处理图像、音频、视频甚至多模态工作。大多数AI应用只能聊天,价值有限。
但今年情况有所改变,多模态模型逐渐成为主流。火山引擎此次发布了豆包1.6 Pro多模态模型、豆包视频生成模型Seedance 1.0 pro。
豆包1.6 Pro多模态模型可以被用到更多企业实际业务场景。如汽车行业,可以用于自动驾驶数据标注、保险风控等;零售行业,可被用于门店巡检、物流巡检等。豆包视频生成模型Seedance 1.0 pro,能被用到广告、影视创作中。它的定价是每百万tokens 15元。每生成一条5秒1080P视频只需3.67元。
其四,提供全栈Agent开发工具。这意味着,更多开发者可以在火山引擎上开发AI应用。AI应用的开发门槛将因此下降,AI应用会继续快速爆发。
以火山引擎旗下的“扣子”为例,它的子产品“扣子开发平台”可以大大降低专业 Agent 的开发门槛。因此越来越多的Agent 正在扣子平台上诞生。
“扣子”还推出了新的产品“扣子空间”,它进一步降低了 Agent 的使用门槛——在对话框中输入指令,就能调用地图、文档、表格、图表、Github(代码托管平台)等应用完成多步骤复杂任务,甚至可以搭建网页、PPT、制作超拟人播客。
2025年之后MCP(模型上下文协议,也可认为是AI应用接口)的流行,也使得 Agent 能力越来越丰富。扣子空间目前正在用MCP打通字节跳动及外部的生态。未来,扣子空间能够执行的复杂多任务会越来越多。
(扣子空间,正在打通字节跳动旗下的应用和一部分外部应用 图源/扣子空间官网)
攻势凶猛背后的技术预判
过去一年,火山引擎深刻影响了中国云市场的进程。它像一条鲶鱼,逼迫其他竞争对手不得不重视这个搅局者。
一位头部云厂商人士对我们表示,火山引擎2021年5月才开始正式对外提供服务,至今只有四年,但它掀起了三轮攻势。
第一轮发生在火山引擎诞生之初。字节跳动下场做云,这出乎很多人的意料。火山引擎杀入市场后,迅速承接了字节跳动集团的大部分用云需求,并瓜分了一部分互联网市场。
第二轮攻势是过去两年,火山引擎通过持续优化成本,精准降低了一些客户的价格。
面对火山引擎的竞争,要更多资源才能守擂。另一位头部云厂商销售直言,如果每天都面临挖角,一线作战人员会自我怀疑,这是个恶性循环。组织士气会下降,人才也会流失。
第三轮攻势是过去一年,火山引擎把推理算力降价90%以上,这倒逼阿里云、腾讯云、百度智能云降价。一些厂商的推理算力被打到负毛利。火山引擎一位技术人士今年4月曾对我们直言,负毛利的原因是技术能力不足。火山引擎的推理算力毛利率在50%以上。
为降低推理成本,火山引擎采用了大量技术优化方案——如PD分离(模型输入和输出分离)架构、大规模MoE/EP(专家模型和专家并行)架构方式。
PD分离架构的好处是,可以在多轮对话中降低重复计算,最终节省算力。MoE/EP架构的好处是,每次调用模型时只激活一小部分专家模型和参数,并且把每个专家模型部署在不同AI芯片上并行计算,进而减少单卡压力,提高资源利用率。
火山引擎这几年的动作,在市场意料之外,但又在情理之中。种种激进策略背后的逻辑是,技术硬实力带来了成本优势。
火山引擎进军云市场,因为字节跳动本身就用庞大的用云需求;火山引擎低价卖云,是因为字节跳动庞大的算力集群可以平摊基础设施成本;推理算力降价90%,原因是字节跳动能充分压榨芯片性能,让每一枚芯片产生足够多的token。
技术硬实力带来的成本优势,让火山引擎在这轮AI浪潮中占据一定的优势。
2025年,AI浪潮显得波诡云谲。2025年1月,DeepSeek-R1以横空出世,以惊人的低价震撼市场;3月6日,AI创业公司蝴蝶效应发布多Agent协作产品Manus,再次震动市场。看不懂、跟不上、怕错过是很多人的直接反应。不断变化的AI浪潮让很多企业变得惶恐。
“DeepSeek-R1诞生前,大家不紧不慢地跑。赛道现在突然横插进一匹黑马”,一位中国科技公司大模型领头人形容, DeepSeek-R1正倒逼他们重拾紧迫感。他们的新款大模型不得不“赶鸭子上架”。一位中国互联网企业高管则认为,Manus想法超前,想到了大多数人没想到的创意。(报道详见《DeepSeek三个月,改变全球四大云厂走了三年的路》)
AI的竞争正在变得更激烈。今年4月,火山引擎总裁谭待曾表示,行业处于你追我赶的状态,但如果把当前的 AI发展看作一场马拉松,可能现在才跑了500米。
今年,火山引擎在有条不紊地推进IaaS、PaaS、SaaS层的改造。这种定力,一定程度上来源于对技术的预判。吴迪认为,火山引擎战术也许会变,但战略很稳定。因为,AI技术发展轨迹是有规律的。就像牛顿第一定律,它能根据初始状态和条件变化推测未来12个月的发展轨迹。火山引擎会根据技术预判提前布局。
吴迪的观点是,IaaS、PaaS、SaaS只是一定时期内,大家对技术分层、分工的共识。云计算未来如何分层不重要。重要的是,随着AI技术发展,中国的数字化转型会迈入新的历史阶段。未来有两个趋势是确定的:
其一,未来2年-3年,在中国做To B(面向企业)的SaaS会变得更简单。虽然也许不会像美国、日本一样那么容易,但情况一定会大幅改善。
其二,未来3年-4年,IaaS层的AI算力会更标准化,就像像水电资源。随着模型、软件变得更成熟,用户将不再关心自己使用的是哪一款GPU,而是更关注产品和业务本身。
谭待表示,火山引擎今年的业务目标很激进。AI这件事情,市场需求很旺盛而且困惑很多。核心逻辑是,把产品做扎实,把模型做好、成本做低,业务目标自然就能完成。
来源:财经杂志视频