摘要:大家可能还不知道,阿里云刚刚拿了个世界级大奖,2024年世界互联网大会领先科技奖,成为史上第一个因为AI基础设施整体技术而获奖的公司。但就是这么一家技术实力强悍的公司,好像很多人还觉得它就是个搞电商的。
大家可能还不知道,阿里云刚刚拿了个世界级大奖,2024年世界互联网大会领先科技奖,成为史上第一个因为AI基础设施整体技术而获奖的公司。但就是这么一家技术实力强悍的公司,好像很多人还觉得它就是个搞电商的。
更让人想不到的是,全国80%的科技公司、65%的“专精特新”小巨人企业、60%的A股上市公司,都在用阿里云的算力服务。超过一半的中国AI大模型公司,直接把模型跑在阿里云上。阿里云已经不再是单纯的云计算公司,它悄悄建起了一整套AI时代的新基础设施。
阿里云在2023年就宣布要打造“AI时代最开放的云”。他们从底层算力到AI平台再到模型服务,做了全栈的技术升级。阿里云升级了人工智能平台PAI,支持高达10万卡量级的集群规模,超大规模分布式训练加速比高达96%,这刷新了国内纪录,还能在大模型训练任务中节省超过50%的算力资源。
阿里云在全球30个地域建设了89个云计算数据中心,提供3000余个边缘计算节点。他们的灵骏智算集群,能支持10万张GPU卡高效互联,在万卡规模下的性能线性增长率达到96%,网络有效使用率达到了99%的业界领先水平。
阿里云并不满足于只做算力底座,他们还自研大模型。2023年杭州云栖大会上,他们就发布了千亿级参数规模的大模型通义千问2.为了让大模型更好用,阿里云推出了一站式大模型应用开发平台“阿里云百炼”。这个平台集成了国内外主流优质大模型,提供模型选型、微调训练、安全套件、模型部署等服务,目标是简化开发工作。开发者甚至号称能在5分钟内开发一款大模型应用,几小时就能“炼”出一个企业专属模型。
阿里云基于通义大模型“打样”了8个行业大模型,推动大模型在千行百业的集成落地。他们开源的通义千问72B模型,成为中国参数最大的开源模型之一。阿里云的魔搭社区现在已经聚集了2300多款AI模型,吸引了280万名AI开发者,AI模型下载量突破1亿。
阿里已经形成了IaaS、PaaS和MaaS三层完善的架构及产品矩阵来支持AI。在IaaS层,阿里为AI设计了云基础设施,包括计算的模块、高效的网络及储存。他们的灵骏智能计算集群采用HPN 7.0网络架构,支持10万卡级的可扩展规模,存储系统CPFS提供达2TB/s的读吞吐和3000万IOPS。
在PaaS层,阿里提供了丰富的大数据及机器学习产品,能够从数据清洗开始帮助开发者训练模型。阿里人工智能平台PAI分布式训练加速比高达96%,可稳定运行千卡任务5周以上。在MaaS层,主要包括基础大模型/通义大模型、企业专属大模型、魔搭社区、API服务等。阿里巴巴的人工智能既对内实践,也对外服务。
内部实践中,阿里小蜜每天服务在线及热线用户超500万人次,覆盖全球132个国家和地区的11种语言;天猫精灵是全球最大的中文智能助手,总销量超过2000万台。在AI芯片层,平头哥发布了全球最强AI芯片含光800,1块含光800算力就相当于10块GPU,这芯片已经用于阿里巴巴多个场景。
全球前三、亚太第一的阿里云已构建起亚洲种类最全、规模最大的人工智能集群。阿里巴巴达摩院在自然语言处理、智能语音、视觉计算等领域夺得过40多项世界第一。其自然语言处理在SQuAD机器阅读评比中精确阅读率首次超过人类,智能语音入选MIT Technology Review 2019年“全球十大突破性技术”。
随着人工智能加速发展,以CPU为核心的经典计算体系正快速向以GPU主导的加速计算体系转移。阿里云通过软硬一体的体系化创新,面向AI对云计算的全栈架构实现了技术全新改造,将数据中心全面升级为一台超级智能计算机。
在计算层,阿里云研发出全新的磐久AI服务器,单机支持16卡、显存1.5T,并创新AI算法预测GPU故障,准确率达92%。在网络层,高性能网络架构HPN7.0可稳定连接超过10万个GPU。在平台层,人工智能平台PAI已实现万卡级别的训练推理一体化弹性调度,AI算力有效利用率超90%。
美国政府投入巨额资金追求通用人工智能(AGI),而中国则更专注于推动“AI+”应用,建立低成本、高效率的工具来提升经济发展效能。全球AI应用市场已成为美国与中国激烈竞争的舞台。有观察人士指出,2025年可能成为转折点,单一AI霸权的时代正在让位于群雄逐鹿的新格局。那么,当AI竞争的核心从单纯的技术突破转向基础设施和生态系统的构建,像阿里这样默默搭建“AI时代最开放的云”的公司,是否才是真正定义了未来的游戏规则?
来源:孔雀带你看科技