摘要:聚焦 AI Infra 建设方案及最佳实践,「智驱未来,云网随行:AI Infra 建设方案及最佳实践」沙龙阿里云基础设施 AI Tech Day 北京站于 8 月 8 日下午在北京全球创新社区顺利举办,活动现场吸引了来自月之暗面、字节、小米、爱奇艺、360、
聚焦 AI Infra 建设方案及最佳实践,「智驱未来,云网随行:AI Infra 建设方案及最佳实践」沙龙阿里云基础设施 AI Tech Day 北京站于 8 月 8 日下午在北京全球创新社区顺利举办,活动现场吸引了来自月之暗面、字节、小米、爱奇艺、360、雪球、猿辅导、奥迪等 16 家相关 AI 领域领先企业或有AI建设诉求企业的 32 名业务/技术骨干参与。本次技术沙龙旨在聚焦企业建设高效、高可用的 AI Infra,深入解析 AI 驱动的原子能力与场景化架构设计,分享从基础网络建设、算力池化、存储调度,以及 VPC RDMA 性能优化、Agent 智能体出海等场景的全链路方案,助力企业打造智能、弹性、稳定的下一代 AI 基础网络架构。
阿里云智能集团公共云华北大区资深解决方案架构师 王勇猛(勇猛)致开场辞,AI 规模化落地对基础设施提出严峻挑战,AI 时代的基础设施不再仅仅是后台支持,而是深度融入业务决策,加速企业认知,实现“零延迟”技术底座。
今天 AI 发展的三个趋势:第一,AI Infra 核心是高效协同的“集群当量”,而非单一 GPU 数量。第二,大模型等应用爆发驱动云基础设施升级:低时延、高吞吐、弹性、高可用,关乎业务连续性和数智化竞争力。第三,AI 出海加速,全球化部署成刚需,需全球组网、低延迟调度及合规安全。
云基础设施是 AI 爆发的创新土壤和模型高效稳定运行的“底座工程”。阿里云正围绕通义大模型、PAI 平台、自研芯片、全球一张高性能网络等能力构建一体化 AI 基础设施,助力技术领导者专注于业务创新。
第一章节围绕 AI Infra 解决方案与最佳实践展开,介绍当前阿里云围绕 AI Infra 主推的网络/计算/存储主推方案与核心能力。
阿里云智能集团云网络高级产品解决方案架构师任江波(硕丰)分享了《资源池化,打造全球AI算力和数据一张网》。AI 技术和应用的时代,相比以往的 3 大特征:算力规模更大、算力形态更多样、数据体量和数据流动频率指数级增长。在此背景之下,网络作为管道,如何进行资源池化和调度,帮助释放算力的价值,让数据传输和流动更加高效,变得尤为重要。阿里云云网络基于弹性公网 EIP、云企业网 CEN、转发路由器 TR、私网连接 PrivateLink、AI 原生 ALB 和全球加速 GA 等核心产品打造一张覆盖全球的 AI 算力和数据网络,真正实现算网融合,资源池化,弹性调度,按需使用。支撑 AI 场景下高质量数据采集、超大带宽训练数据运载、超低时延推理访问加速、多业务端到端有序混跑和内网级生态应用安全调用,保障极致的用户使用体验。
阿里云智能集团弹性计算容器产品架构师陈晓斌(阿兵)分享了《AI Infra 关键基础算力与容器编排调度 》。AI 领域相对传统微服务,大数据领域从资源异构管理,大规模稳定性,资源利用率,工程提效对 Infra 团队提出了更高的要求。ACK 容器智算 针对 AI 领域所涉及的预训练数据获取、处理场景的资源弹性,高性价比算力,IP 轮换,计算框架容器化深度融合; 训练场景:集群异构资源管理,监控和性能追踪、故障发现、诊断、自愈,支持各种训练推理框架、大规模 AI 任务调度; 推理场景:AI 容器镜像和模型加速,分布式推理负载管理与弹性伸缩,高阶流量调度; 针对 AI Agent 场景的安全沙箱/极速弹性 Serverless 能力均在各大头部 AI 客户得到大规模生产实践。
阿里云智能集团存储产品解决方案架构师程川军(无川)分享了《面向 AI 的阿里云存储方案及最佳实践》。 该话题从 Storage for AI & AI enabled Storage 两个方面,阐述如何利用阿里云的存储解决方案构建一个高效、灵活且安全的 AI 数据管道,帮助企业快速实现从原始数据到有价值洞察的转变,以及用户在使用中的需求洞察和最佳实践。
Storage for AI 产品能力,面向大模型、智驾和具身智能等 AI 场景,CPFS(数据流动、EFC 缓存)、OSS(OSS 加速器、OSS connecter For AI)、EBS(EED)、NAS 等存储组合方案,从数据采集、数据处理,模型训练、模型推理多个细分场景提高数据的处理效率。
AI enabled Storage 维度,介绍 OSS 的数据索引Metaquery 提供支持 AI 检索能力,对 OSS 中的文本,图片、视频类数据,融合大模型解析能力,匹配非结构化数据的语义信息,智能整合向量特征、键值特征与全文索引&智能排序,支持数据高效价值发掘和应用,并分享在智能家居摄像机场景的语义检索实践 。
第二章节围绕 AI 场景网络助力业务提效展开,从典型客户的 AI Infra 组网架构实践展开,再深度介绍训推场景和 AI Agent 出海场景网络性能和体验提升方案。
阿里云智能集团公共云事业部解决方案架构 李为祥(轻毅) 分享了《AI Infra 基础组网架构的实践与思考》。AI 场景下,Infra 应该如何更好的满足业务的需求。从 AI 行业的发展趋势入手,看大模型开发的不同阶段对 Infra 的特殊需求,倒推出 Infra 设计原则,最后详细阐述了网络、计算、存储三个层面具体的架构设计和注意事项。把我们服务众多基础大模型客户的经验赋能给了参会的各行业的客户群体。
阿里云智能集团云网络高级技术专家 吴曦(恒远)分享了《为客户体验保驾护航:AI 应用出海场景的网络实践与演进》。AI 智能体&推理服务出海浪潮呈现三大特征:其一,需平衡资源可获得性、用户体验优化与成本控制;其二,网络连接具有显著的长连接与高时延敏感性;其三,涉及多模型跨地域调用。应对此,亟需构建一张具备全球视野,融合安全防护、智能加速与全局分发能力的网络。云网络全球加速产品正是为此而生,其核心能力——全球智能调度、集成四七层防护及提供确定性跨域时延——将有效助力AI智能体&推理服务提升出海竞争力。
在最后的客户互动讨论环节,来自阿里云网络、弹性计算、存储等团队的 PDSA、PD 和研发同学,与到场客户一起围绕企业 AI(模型/应用等)建设及使用场景的典型问题展开深度探讨和交流,包括 IaaS 层核心能力与网络需求、外部数据获取与模型优化、AI 应用与智能体服务部署、基础架构重构与资源融合等相关的架构合理性、合规性、成本、质量等。
来源:凌云时刻