工行软件开发中心Serverless AI探索实践

B站影视 电影资讯 2025-08-25 15:57 1

摘要:随着大模型、Agent等AI技术的爆发式演进,云计算正迈入以“AI深度重塑基础设施”为核心的第三次浪潮,驱动算力范式发生结构性变革,智能算力的战略地位正在超越通用算力,成为核心基础设施资源,其全球占比预计在2025年攀升至58%。其中AI推理需求因Agent应

随着大模型、Agent等AI技术的爆发式演进,云计算正迈入以“AI深度重塑基础设施”为核心的第三次浪潮,驱动算力范式发生结构性变革,智能算力的战略地位正在超越通用算力,成为核心基础设施资源,其全球占比预计在2025年攀升至58%。其中AI推理需求因Agent应用的广泛普及而呈现指数级增长,大模型推理场景的“高并发、碎片化、响应快”特性,对AI算力基础设施的供给能力提出了更高要求。

为应对这一挑战,业界提出Serverless AI作为面向大模型场景的新型算力调度范式。它依托事件触发、拓扑感知调度、算力资源自动弹性伸缩等Serverless机制,实现智算资源供给模式从“长期绑定”向“按需使用”转型,进而满足智能算力如水电般“随取随用”的终极形态,加速驱动人工智能与云计算走向深度融合(如图1所示)。

图1 Serverless AI

一、云数智融合,构建弹性供给、智能调度的智算底座

中国工商银行软件开发中心(以下简称“工行软件开发中心”)积极把握“云计算第三次浪潮”的技术趋势,深度融合云计算、大数据与人工智能三大核心技术,构建“一云多算”的云数智融合技术底座。在云数融合方面,一是依托常态化在离线混部技术框架,构建基于三优先级资源分级模型与双水位线调度算法的动态资源分配机制,通过CPU/内存/IO多维度内核级隔离实现资源争抢防护;二是深化大数据平台云原生化转型,以存算分离架构升级为基础,建设统一元数据服务与容器化弹性资源池,形成大数据算力资源高效调度能力。在云智融合方面,一是融合硬件虚拟化与内核态虚拟化双技术栈,实现对新旧GPU卡的透明化管理;二是通过自研智算调度器,支持紧凑型(训练)、平铺型(推理)、亲和性(性能优化)三类策略;三是建立精细化运营支撑,通过非侵入式Pod级监控能力实现智算资源全维度可观测(如图2所示)。

图2 云数智融合整体架构图

然而,随着大模型推理场景的规模化落地,其负载的“高并发、碎片化、响应快”特性与现有基于预分配和人工调度的供给模式间的矛盾日益凸显,在以下方面面临新的挑战:

1、算力资源利用率:预分配机制使得当前推理服务无论是否有业务请求,都会持续占用资源,导致空闲时段算力资源无法被充分利用,整体资源使用率还有较大提升空间。

2、扩缩容效率:在业务高峰期,推理请求数量激增,现有调度机制依赖运维人工干预,扩容效率受限,难以实时响应突发负载变化。

3、资源与业务需求匹配度:在预分配机制下,大模型推理服务上线需提前评估算力资源配额,无法根据实时负载进行动态调整,导致资源供给与业务需求在峰谷时段无法完全精确匹配:高峰易触发限流,低谷则资源闲置浪费。

面对上述挑战,工行软件开发中心聚焦“按需即用、秒级调度、精细管控”的目标,提出构建基于Serverless AI的弹性算力调度架构,推动算力调度体系向自动化、智能化转型。

图3 Serverless AI能力视图

Serverless AI平台以任务负载、服务状态、链路流量三维联动的调度感知中枢为核心,创新实现“请求驱动与资源编排联动”、“平台能力与推理引擎协同”的融合运行机制,并深度融合冷启动双擎加速、异构资源统一纳管及轻量化混合编排等技术,形成面向多场景的智能算力供给能力(如图3所示)。

(一)构建三位一体智能调度中枢,实现资源动态调控与精细运营

1、智能调度中枢,秒级感知与精准资源调度:针对大模型推理服务“周期性调用、负载波动”的运行特性,平台创新性打造了智能调度中枢。其核心在于“请求即资源”的动态供给模式,即推理请求自动触发实例创建,任务完成自动释放资源,避免资源闲置浪费。中枢基于实时流量洪峰、资源负载热力图及智能部署策略,决策最优执行节点,有效规避局部热点问题,保障全局服务平稳高效。

2、高效弹性伸缩引擎,业务洪峰平稳度汛:平台引入高效弹性伸缩框架,支持容器粒度资源精准调控。结合智能实例预热池,可在业务洪峰来临前快速扩容,有效保障服务的连续性与用户体验。引擎支持多层次指标深度联动,实现基于“核心业务优化保障、长尾业务按需伸缩”的差异化弹性策略,在稳定性的刚性需求与资源成本的弹性控制间取得最佳平衡。

3、全景运维视图,赋能智能诊断与主动治理:平台深度融合工行软件开发中心成熟的监控、日志、告警体系,打造覆盖容器、服务、链路的Serverless AI全景运维视图,实时捕获请求队列长度、算力负载、响应时延、并发吞吐等黄金指标,通过统一采集框架与标准化数据格式,结合智能诊断引擎与可视化算力态势大屏,实现对服务运行态、资源瓶颈点、性能趋势线的全方位透视与根因定位,变被动响应为主动预警与精准治理,持续提升平台韧性。

(二)构建多擎协同智算底座,突破冷启动瓶颈与异构效能跃迁

1、冷启动双擎加速,大幅压减模型实例启动时间:针对大模型服务实例启动耗时长的行业难题,平台创新构建了冷启动双擎加速体系。一是构建AI存储加速引擎,通过Fluid数据编排与分布式缓存等技术,优化模型权重文件加载方式,显著提升模型冷启动过程中的模型文件加载速度。目前该能力已广泛应用于Qwen等业界主流大模型部署,模型加载时长由20–30分钟缩短至1分钟以内;二是引入基于显存快照技术的瞬时启动引擎,攻克显存、内存与缓存间的快速数据转换难题,将预热就绪的推理服务状态进行快照冻结保存,恢复时无需进行初始化即可实现服务实例的秒级启动。

2、融合调度异构算力,统一模型交付:面向多元异构的算力环境,平台构建了异构智算融合调度层。通过环境隔离沙箱与智能标签化调度策略,屏蔽底层硬件与框架差异,实现对异构资源池的统一标识、协同调度与能力感知,保障大模型服务在复杂异构智算环境中的运行一致、交付稳定,灵活满足多样化模型部署与迁移需求。

3、轻量化调度双模引擎,普惠化大模型破壁之道:面向大模型对智算资源的高门槛问题,平台深度整合轻量化调度双模引擎。基于智算资源与CPU通用资源协同调度创新算法,实现低性能智算资源与CPU的混合编排,突破资源受限环境下大模型部署的密度瓶颈与效能边界,为普惠金融场景开辟低成本、高兼容适配的智能化落地新路径。

二、建设成效与未来展望

工行软件开发中心作为同业首家构建了涵盖通用算力、大数据算力、人工智能算力的“一云多算”云平台新架构,近三年累计挖潜物理服务器超三千台、节省GPU卡超六百块。此外,中心也率先在生产环境基于Serverless AI技术能力,部署了DeepSeek、Qwen、智谱等系列模型,支持按需触发推理服务实例、空闲五分钟自动释放资源,并通过集成Fluid数据编排技术与显存快照机制,实现从模型文件拉取到服务初始化的全流程提速。其中,Fluid技术有效加速模型权重在远端存储与本地节点间的数据加载,缓解I/O瓶颈,生产实际模型启动速度提升10倍;显存快照机制通过模型预热阶段保留服务运行状态,并在后续实例启动时快速恢复,服务就绪时间平均提速最高可达85%。依托上述能力,Serverless AI平台可提升推理服务实例部署密度20%,在同等推理任务负载下预计可节省17%的算力资源投入。

面对智能时代的深度演进,工行软件开发中心将锚定“领航AI+”和云计算的融合方向,持续推进“算力-云计算-人工智能”三位一体的协同演进,积极打造智能化基础设施底座,赋能工商银行在云智融合的新范式下实现从“数字化转型”向“智能化跃迁”的宏伟跨越。

来源:银行科技研究社

相关推荐