摘要:4637亿美元,这个金额是美国“阿波罗登月计划”累计投资的1.5倍,也是知名研究机构Dell'Oro Group对2025年全球云计算投资规模的市场预测[1]。
4637亿美元,这个金额是美国“阿波罗登月计划”累计投资的1.5倍,也是知名研究机构Dell'Oro Group对2025年全球云计算投资规模的市场预测[1]。
从巴黎奥运会全球电视网络直播,到《歌手2025》全链路4K超高清直播;从支持自动驾驶算法训练,到支撑3A游戏流畅运行;从推动通义千问Qwen、Kimi等国产大模型迭代,到托起中国企业出海业务……云端的世界,AI正在开疆扩土。
2025年8月29日,阿里巴巴最新一季财报公布,阿里云收入同比增长26%,AI相关产品收入连续8个季度保持三位数增长,成为支撑阿里巴巴发展的“新的增长极”。截至当天美股收盘,阿里巴巴股价大涨近13%。
如果说20世纪是“电”的世纪,那么21世纪就是“计算”的世纪:21世纪第一个十年,算力开始成为生产力新的度量衡,经典互联网时代井喷的数据要通过计算挖掘价值,移动互联网时代爆发的流量也只有在云端才能承接;而今,云计算又成为AIGC时代冲锋的弹药。
当“ChatGPT时刻”叩响AIGC的大门,云计算也从后台浮出水面,迎来价值重估,从生态基座位跃升至战略级资源,成为AIGC所有愿景落地的前提。
而这一切的起点,来源于21世纪初期那批疯狂技术人“计算普惠”的朴素念头。彼时,在海外,亚马逊推出了弹性计算EC2;在国内,阿里云于2010年发布了弹性计算服务ECS。
十五年来,中国市场成为率先拥抱新技术的沃土,中国的企业和开发者也在不断用云计算改进业务、提升效率,如今,中国技术也正引领着第三次云计算“弹性”革命。
凿山铺路十五年,云计算是一条隐秘而光辉的暗线,它陪伴和支撑中国科技产业从传统互联网走入移动互联网,现在又大步迈向AIGC的新技术时代。
互联网风起,让计算上云
一个不争的事实是,当前,中美两国最强的云计算公司,都脱胎于电商。这是为什么?
要回答这个问题,就要回到15年前。2010年的双11,淘宝单日交易额达到19.5亿元,平均每分钟卖出4.8万件商品,而承担交易重任的支付宝却经历了“惊魂4秒”——距离系统崩溃只差4秒[2]。
这充分说明了彼时计算与需求之间的不平衡,一面是井喷的数据,另一面是不足的算力。
更早的2008年,中国电商市场规模突破3万亿元,网购用户在网民中占比近50%(1.2亿/2.53亿)[3],海量的交易让算力捉襟见肘。对当时的行业巨头而言,不断买服务器最省事,但不省钱,而且还得听别人说了算。
彼时,一台IBM小型服务器至少几十万元,商业数据库、存储设备、软硬件维护成本上千万元。阿里内部曾预测,扩大服务器规模的投入,很可能会在未来“拖垮阿里”。
2009年,阿里云成立,首个KPI就是广为人知的“飞天”,将传统IT架构转向云计算架构。云计算摆脱服务器的肉体凡胎,算力集中上云并按需分配,在规模效应下,提升了算力的使用效率、降低了算力成本,打破算力增长的天花板。
在行业对这套云计算新系统仍持观望态度时,阿里率先开展实践。2012年双11,191亿元的单日交易额中,20%的订单在云上实现,一年后,这一数字提升到了80%。
几乎与“飞天”同时启动的,还有另一个不太为人知的神秘项目。2009年秋天,阿里集团内部技术骨干集结,在西湖边上的一家茶馆,定下了名为“后羿”的弹性计算项目,初衷是希望将“飞天”强大的云计算能力,提供给更多中小企业的外部客户。
到年底,弹性计算ECS beta版本发布,此时,阿里刚刚收购的专注于域名领域的中国万网,意外地成为了弹性计算的第一批种子客户。
作为当时的业内头部,中国万网囊括了最前沿的互联网和电商公司客户,还有大批中小站长,他们身处行业中心,更早感受到流量暴增,对计算资源不足也深有体会,他们希望找到性价比更高的计算资源。2009年底,中国万网提出,希望对外售卖ECS。
双方一拍即合。2010年5月,名为AH-Cloud的合作项目正式发布,阿里云弹性计算由此进入更多互联网企业的底层架构,将云计算的火种撒向各行各业。从艺术创作到互联网金融,从奥运会转播到气象预测,算力搭乘着各类终端连接而成的网络,随着数据的迁徙渗透进人们的工作和生活。
《昆塔:盒子总动员》利用云计算渲染呈现的3D画面
2013年,阿里最后一台IBM小型机在支付宝下线,上云也成为中国企业的共识,各类第三方云计算企业诞生,友商巨头扎堆入局。
中国云计算正发轫,亚马逊AWS就在2013年底强势来袭。战争打响,阿里云选择正面硬刚:通过“神龙架构”等自研技术创新,持续降低云计算成本,同时结合市场需求的充分挖掘和理解,用产品说服客户,通过技术创新实现成本优势。
移动流量爆发,新架构革命
2010年代后半段,移动互联网爆发,2016年双11,天猫单日交易额突破1000亿元,移动端交易占比高达82.42%[5]。
网购不限制于台式机前,而是随时随地发生。与此同时,社交、短视频、直播等手机应用野蛮生长,拼接成移动互联网的另一个侧面。
微博热搜取代报纸头条成了舆论场的重心。数亿用户同时互动、搜索、发布内容,瞬间激增的流量不仅需要强大算力支撑,更考验资源调度的灵活性。这一趋势使得长期困扰云计算发展的“虚拟化损耗”问题,从技术隐疾演变为必须要突破的关键性能瓶颈。
作为云计算的核心技术,“虚拟化”指的是通过软件将服务器的各类计算资源抽取出来,分类集中到各个资源池,再根据需求统一调配、打包成“虚拟机”。
实现虚拟化,本身需要消耗算力等资源,比如一台32核的物理服务器,有12核用来做虚拟化,带来接近40%的虚拟化损耗。随着云上规模的不断扩大,虚拟化损耗带来的资源浪费愈发凸显。
2016年的双11复盘会,弹性计算团队收到了“最后通牒”——必须将“虚拟化损耗”降到接近0%,阿里云由此开始了又一次架构革命。
破局关键在于软硬件协同。
2017年,阿里云发布自研的神龙架构。通过定制虚拟化芯片、专用主板与MOC卡,结合自研软件,实现接近零损耗的高性能虚拟化,比亚马逊的专用芯片Amazon Nitro的推出时间还早了1个月。
神龙自研硬件体系
在向“神龙”进化的过程中,弹性计算的另一个“分支”——容器技术,开始在阿里内部生长。
相较于传统虚拟化技术,容器技术天然迎合移动互联网的高并发特性,它根据进程分配算力的机制更灵活,启动速度从分钟级提高到了秒级,能够应对突发、瞬时、海量的用户请求,且支持跨平台迁移。
2019年,第二代神龙架构(MOC1.5)规模化,开始基于一个软硬件体系,统一支持三种算力类型(裸金属服务器+虚拟机服务+容器),容器服务正式加入了弹性计算“全家桶”,更大程度地覆盖了不同层级的算力调配需求,“朋友圈”进一步扩大。
截至目前,神龙架构已迭代至第五代,阿里云还在2022年率先推出了云基础设施处理器CIPU。
在这过程中,阿里云也与最顶尖的产业公司深入合作,不断刷新云计算的性能上限。比如,阿里云与AMD在2016年达成战略合作,陆续推出了基于AMD不同代际处理器平台的ECS实例,成为了诸多顶流app的云原生平台底座,在游戏、工业物联网等领域满足着持续增长的算力需求。
小红书上阿里云就是典型案例。作为以内容分享和社交互动为核心的平台,小红书需要支持海量用户同时在线,在大数据处理、实时搜索与智能推荐等高负载场景下实现快速响应。
为应对这一挑战,小红书基于阿里云自研的CIPU架构的ECS AMD实例进行了深度技术升级,将内存带宽提升125%,峰值达到350GB/s,大幅提升了特定场景的性能,还将集群资源利用率提升至40%,从容承接了年初那波“TikTok难民”的涌入浪潮。
小红书、AMD与阿里云三方探索出“云基座+深度定制”的全新用云模式,也成为业内上云新范式。
2025年8月14日,阿里云更是一口气发布三款企业级实例——u2a、g9a、g9ae,均搭配AMD最新第五代EPYC处理器Turin,全新的“Zen 5”核心架构相较上一代带来17%的IPC(每周期指令数)提升,以及全链路AVX-512(主要用于加速 AI 计算和高性能计算任务)能力的支持,AI和高性能计算(HPC)的IPC提升37%。
AMD第五代EPYC处理器Turin
与AMD长达十年的合作见证了阿里云弹性计算二次革命。在移走了“虚拟化损耗”的大山、满足移动互联网时代的算力需求后,数据开始以更高的精度和更庞大的规模展示其价值。
AIGC奇点的快步到来再次改写了计算的范式,也让云计算的长跑进入新一轮的马拉松。
AIGC时代,做创新的承重墙
2021年前后,AIGC以另一种维度展现了数据的价值,揭示了其彻底颠覆人们生产生活的潜力。
这些愿景被寄托于算力之上,云计算规模成为划定AIGC发展进程的标尺,如何应对前所未有的算力需求暴涨,也成为云计算厂商的全新考题。
当时,小鹏汽车找到阿里云,希望提供“超算”支持其自动驾驶训练,以解决自动驾驶算法训练中海量视频处理量超载的问题。
“超算”是个“小众且顶奢”的概念。与传统云服务器注重资源共享、适用于通用计算场景相比,“超算”强调极致的计算能力和并行处理能力,常用来解决需要大量计算资源的科学研究等问题。
但代价极度昂贵。特斯拉当年的Dojo超算集群运行在1万颗GPU上,建造成本3亿美元起步,对于任何企业都是无法轻易消化的支出,而Dojo最后的无疾而终更证明了高投入背后的高风险。
作为国内自动驾驶的领跑者之一,小鹏是最早决定将超算应用于自动驾驶训练的新势力之一。但放眼全球,能够满足需求的超算集群屈指可数。幸运的是,阿里云是为数不多具备该能力的企业之一。
2022年8月,阿里云宣布与小鹏汽车合建乌兰察布智算中心“扶摇”,飞天智算平台与智能计算灵骏同时出道,以15 EFLOPS的算力成为当时全球最大规模智算平台。
而今复盘,“灵骏”的公开时点相当微妙——它甚至比ChatGPT发布还早三个月。
粮草先行的“灵骏”,也成为后来国产大模型奋起直追的底气。巅峰时期,国内80%以上的大模型都是在“灵骏”上训练的,还承担了包括通义千问Qwen、Kimi在内的top级国产大模型的日常训练和推理。
AIGC给云计算带来新的需求,也进一步提高了后来者入局的门槛,大模型上云的背后,是对弹性更为极致的考验:
一方面要更能“伸”,以持续扩容的算力应对大规模任务和参数规模指数级增长的模型训练。
这个过程并非简单的算卡堆叠,其中涉及到并行计算同步性等诸多“技术陷阱”,业内尚无通用之法,只能倒逼云计算厂商从芯片到网络架构、系统软件多个维度自研。但有能力做到的厂商屈指可数。
另一方面要更能“缩”,即对不同的计算资源进行颗粒度更高的分配,避免资源的浪费,同时能够更加快速、灵活地拉起进程,以应对诸如对话、智能驾驶等需要及时反馈的需求。
比如大语言模型日常需要处理文字、图像、音频等各类数据,需要足够丰富的计算资源以供调配。同时,用户对不同任务的体验标尺不同,比如“询问天气”对延迟的容忍度最低,文献归纳对精确度要求最高,需要更科学的资源调度策略。
这便是对技术积累厚度实打实的考验。阿里云从“飞天”到“神龙”,从虚拟化技术到裸金属技术、容器技术,积累的“工具箱”可谓应有尽有,随取随用。
根据Gartner发布的2025年度全球《容器管理魔力象限》报告,阿里云成为亚太地区唯一一家连续三年进入“领导者”象限的云容器服务供应商。 在其关键能力评估报告中阿里云云端部署(Cloud Deployment)与运维能力(IT Operations)两项评分更是位列第一。
在技术硬实力的基础上,对用户需求的洞察力,则是当前摆在云计算厂商面前更棘手的问题。
在阿里云,产品经理要随时与客户研发团队保持密切沟通,不仅要参与到客户模型的算子优化,在交付后还要频繁回访,跟踪使用效率,排查故障、优化迭代。
百花齐放的模型带来了高度定制化的需求,决定了云计算供应商需要更早地参与到客户的研发流程,而创新的不确定性,也需要产业链原本独立的各个环节重新拧成一股绳。
云计算作为基础设施,贯穿模型产品的整个生命周期,意味着厂商需要始终走在下游需求的前面,以保证有足够大的算力和足够丰富的工具箱承接住更多的“ChatGPT时刻”。
阿里云AI Infra
2024年,弹性计算产品线迎来了再次升级,集通用计算、容器计算和加速计算三大产品线于一体,进一步释放了解决方案的灵活性和适应性。
这一年,阿里云用户范围扩大至全球29个地域、89个可用区,在各行各业密集落地。Gartner报告显示,阿里云在亚太地区IaaS市场份额继续排名第一。
在AI需求的强劲驱动下,阿里云弹性计算的服务器集群正以前所未有的速度迅猛扩张,以机械之身托举起人类历经数个世纪对人工智能的全部憧憬与想象。
尾声
2013年初,一封来自秦岭巴山的感谢信,悄然落在阿里云办公室的案头。
写信人是一位铁路巡线工,常年在幽深隧道中徒步巡查。过去,他靠双脚传递险情;如今,他用手机拍照上传,信息几秒内就能送达调度中心。改变这一切的,不是惊天动地的技术突破,而是一次安静的算力迁移——从机房到云端,从企业级系统到底层个体的工作流。
这个故事没有出现在财报里,也未被写进发布会的PPT,但它成了阿里云弹性计算十五年历程中最真实的注脚:真正的技术价值,往往藏在那些看不见的地方。
十五年来,从支撑双11流量洪峰的“飞天”系统,到打破虚拟化损耗瓶颈的“神龙架构”;从率先推出CIPU,到构建大规模智算集群“灵骏”——阿里云始终在做一件事:把复杂的底层技术变成简单可用的算力服务。
今天,算力正在从“资源”演变为“能力”,而弹性,也不再只是资源的伸缩,更是对千行百业复杂需求的精准适配。这条路依然漫长,挑战远未终结。
但历史已经证明:那些在无人处“凿山铺路”的人,终会被时代看见。而那些默默支撑变革的系统,终将成为新世界的底色。
[1] AI to lift cloud investment to $460bn in 2025, more than Apollo program, Nikkei Asia
[2] “双11”幕后:支付宝曾差4秒就崩溃,今年只需十几人待命,澎湃新闻
[3] 《中国电子商务报告(2008-2009)》,商务部
[4] 看淘宝这十年:改变国人消费观念印证商业变迁,人民网
[5] 2016天猫双11正式进入“千亿时代” 移动端占比82.42%,中国经济网
[6] 《在线》,王坚
[7] 爆发了,阿里的云,华商韬略
封面图片来自ShotDeck
来源:远川研究所一点号