专题 | 多元协同的智算资源池建设

B站影视 电影资讯 2025-09-01 11:08 1

摘要:传统的通用算力是以CPU为核心,注重逻辑控制,适合通用任务处理,而智能算力一般是指针对AI算法逻辑而设计优化的专用加速处理器,包括GPU、NPU、FPGA等多种独立形态,也可集成在SOC中。与CPU相比,这类处理器可以更高效地处理并行运行的复杂数学运算。它既可

文/中国银行金融科技部 刘鹏展

传统的通用算力是以CPU为核心,注重逻辑控制,适合通用任务处理,而智能算力一般是指针对AI算法逻辑而设计优化的专用加速处理器,包括GPU、NPU、FPGA等多种独立形态,也可集成在SOC中。与CPU相比,这类处理器可以更高效地处理并行运行的复杂数学运算。它既可以通过虚拟化与专用分布式计算框架部署于云端,也可以广泛分布在边缘和智能设备之中。

长期以来,在金融科技中,通算是守住底线的“盾”,保障金融系统的确定性、安全性与稳定性。而智算是突破天花板的“矛”,解决需要洞察的复杂问题(如市场预测、非结构化数据分析)。随着数字金融的快速发展,仅靠通算资源支撑业务已显乏力,业务处理显现出新的趋势:从规则到洞察,处理复杂的非线性规划问题;从批量到实时,通过流式计算识别稍纵即逝的机会与风险;从孤立到协同,释放跨机构跨形态的数据要素价值。这些都需要智算支持。作为通算算力的必要补充,智算已经成为金融机构算力版图中不可分割的重要组成部分。

经过多年建设,中国银行已基本形成传统人工智能与生成式大模型并驾齐驱的智能应用场景发展体系。

传统人工智能技术方面,中行广泛使用OCR、RPA、人脸识别、行为识别、语音识别等十余种AI技术。OCR已支持识别超200种标准及特色票证,RPA在运行场景超3000个,主要辅助基层员工实现报表自动下载、数据查询、信息核对等重复性工作,月均执行任务超20万次。语音识别主要用于电话银行、会议音频转写等场景,支持中英文识别,基于GPU的模型识别准确率达95%。文本转语音主要用于门户网站、手机银行无障碍播报等场景,支持语种数量17个。行为识别在10余家分行辖下多个网点/金库试点,覆盖库房管理、柜面操作、厅堂管理等场景,有效提升监控效率。

生成式大模型技术方面,当前已落地智能研发、员工问答等数十个场景。智能研发场景用户超3600人,使用量达170万次,月均生成代码超133万行。建设BOCAI场景探索环境,部署DeepSeek-R1、QWen3等系列模型,并支持基于专用知识库的RAG、一键生成AI助手等便利功能,面向总分行开展场景探索试点,突破传统应用开发模式,让大模型能力更快触达业务一线。

随着智算行业技术路线日趋收敛,我行兼顾智能算力的稳定性、灵活性及可扩展性,自主构建智算资源管理平台,纳管多元异构算力,总体建设思路可以概括为以下三方面。

一是明确技术路线,通过容器平台(Kubernetes)的设备插件(Device Plugin)机制管理异构资源,通过调度器(如Volcano)处理计算任务。

二是有效组织算力,为解决“将合适的工作负载分配到合适的算力”问题,将不同芯片的算力(TOPS/TFLOPS)、内存(HBM/GDDR)、拓扑结构抽象为标准化指标,如“算力单元”。调度器根据任务类型(训练/推理)、精度要求(FP32/INT8)选择最优组合,将任务分配到“算力单元”上。

三是做好算力之间的互通,通过ONNX或MLIR等技术统一模型表示,适配不同后端推理引擎;通过定期保存任务状态,故障时切换至其他可用算力重启。

由于GPU等硬件的成本、电力成本仍然较高,我行智算资源总体上比较“紧”。高负载场景下的资源动态分配与高响应保障成为通往“智能”的主要矛盾。解决此类问题一方面需要依靠行业整体发展,不断突破GPU等设备的性价比与低功耗。另一方面,从用户视角,需要回答如何“用好”已有资源,达成提质增效的目标,可从以下三方面考量。

一是用好“云原生”的弹性能力,根据行内业务需求和负载分布情况,动态优化资源分配策略。强化资源的实时监控与智算资源的动态扩缩容能力。

二是采用“训推共池”的平台设计理念,实现智算资源在训、推场景的灵活配置和高效利用,解决资源潮汐问题,保证系统在高负载场景下的高响应。

三是优化缓存策略,“让数据找到计算”。要让高频数据,例如推荐系统特征库,预加载至GPU显存(GPU Direct Storage等机制),发挥NVMe存储节点性能优势,减少数据加载延迟;通过分布式共享缓存服务来加速读取,突破I/O瓶颈。

智算资源相较于全行各业务线高涨的AI需求来说仍处于短缺的状态。为兼顾效率与质量,我行集中全行GPU资源建设统一智算管理平台,纳管多种异构算力。从架构层面实现算力、模型、技术、能力、服务五个层面的解耦,为各业务线、各类人工智能应用提供灵活可调配的智能算力服务。本章将结合我行重点智算场景落地经验,总结出以下五个“协同”,可以在一定程度上代表中行在智算场景中的建设理念。

一是算力与场景协同。集中全行智能算力资源,打造智算平台,动态分配不同的逻辑子池,合理分配“场景探索”与“生产推理”的资源。限于当前行内算力有限、应用需求旺盛的实际情况。集中投放智算资源建设“BOCAI”场景探索环境,让大模型能力高效触达业务条线,为一线业务人员“躬身入局”提供环境支持。通过开展提示词工程、Agent助手设计、多模型比较、RAG知识库构建等工作,业务人员可高效地挖掘AI与业务流程的结合点。并基于真实生产数据,评估大模型在特定业务场景应用中的实际效果,最终提炼一批价值密度高、人效提升大的高价值场景,孵化成常规业务群。随着大模型类应用的正式上线,使用“生产推理”资源,智算平台可根据实际业务负载,在场景探索环境与生产推理环境间实现智算资源的动态调拨,把算力赋能到关键场景上。

二是多元算力协同。重视通算与智算的协同,通算性价比高,可以解决大多数问题;智算在关键场景“点石成金”。比如在大额可疑交易合规管控方面,我行持续加大人工智能技术运用,为集团提供高质量情报线索,有效降低甄别人员工作量。通算结合传统AI技术,提取洗钱风险特征;智算结合流计算框架,实现事中阻断。多元算力协同最终将可疑团伙识别率超过90%。人工甄别时,在保证精准度的前提下,节省可疑交易甄别人员约60%工作量。

三是大小模型算力协同。从对硬件的要求来说,机器学习等小模型对于算力需求明显低于大语言模型,同时也不依赖RoCE等高速网络。因此使用策略上,高端GPU集群集中建设,中低端GPU可基于现有基础设施就近部署。我行在授信报告智能化项目中综合使用了大、小模型,结合不同算力,发挥各自优势。传统的授信报告编写对客户经理的财务分析能力、行业分析能力、信息检索能力、行内系统熟悉程度都有较高要求。报告质量依赖个人能力与经验。授信报告智能化工具可辅助客户经理从以下几个方面,提升授信报告撰写效率:通过OCR技术提取客户财报信息;通过RPA实现跨税务、征信机构、工商等多部门系统的信息提取;基于授信大模型,通过多轮连续对话,引导大模型提取关键字段,逐步实现授信报告辅助生成。授信报告的自动化撰写,大幅缩短了单笔授信业务的平均耗时,提升了客户体验。综合采用小算力要求的经典人工智能技术与大算力要求的大语言模型,提升智算效能。

四是境内外协同。我行充分发挥中银香港等海外机构的作用,畅通人工智能技术应用在国内国际的“双循环”。亚太、欧洲、美洲信息中心在确保安全的前提下,试点GitHub Copilot云服务探索代码生成、代码优化和文档案例自动化;同时为应对日益提升的数据安全风险,基于智算一体机部署本地大模型,以降低敏感数据泄漏风险。通过海外中心持续加强与辖区海外分行联动,采用“研究—试用—优化—投产”的落地模式,积极推动人工智能技术在信息处理、文档生成、开发支持、数据挖掘、员工服务等领域的加速应用。在保证数据安全合规的前提下,通过系统间交互、模型共享等手段,做好境内外算力协同、模型能力对齐。

五是云边端协同。根据不同算力需求,我行采用集中训练与分布式推理相结合的算力部署模式。通过在总行数据中心建设大规模智算平台,应对大模型二次训练、调优等场景。与此同时,在各分行、综合经营公司等分支机构部署分散智能算力,用于边缘推理及微调。从而打造与集团组织架构相匹配的“集中式+分布式”协同架构。例如语言类应用识别,在服务侧集中部署后台系统,可用于事后质检与后台处理,在事中质检时,通过分支机构终端侧的语言合成软件,充分使用终端算力,减少数据在广域网传输。

智能算力相比通用算力,价格昂贵,能耗高,如何正确评估智算给企业带来的价值,是一个复杂而现实的问题。

一方面,它作为企业的重大投资类目,需要满足ROI、TCO、成本节约占比等常规指标。另一方面,AI仍处于快速发展迭代期,相较于传统稳定的IT投入,智算资源的价值评估体系也面临着诸多的不确定性。评价智能算力的价值,不要仅关注直接价值,也要看它能解决多少过去解决不了、解决不好的问题,看它对现有工作的改变。具体来说,可以从业务效果、战略收益、员工体验等维度认知智算价值。

业务效果层面可聚焦应用场景价值。评价此类智能应用的价值比较直观,可通过几个核心指标衡量。

一是直接收益,如基于智能算力建设的智能投顾助手,相较于人工管理的产品的年化收益率变化。又或是远程银行业务在投入智能算力前后带来的IT成本缩减规模等。

二是效率提升,体现在任务处理速度加快、流程自动化覆盖率提高,如对公开户流程的耗时缩短程度。

三是风险防控能力,风控模型提升算力算法后,提高反欺诈模型精准度可以减少资金损失等。

更进一步,智算为企业带来了战略层面的收益。首先是形成了一些新的业务模式,例如实时风控、智能编码写等应用是随着算力、算法的演进才出现,没有智能算力前是无法想象的。其次是生态体系建设,多类应用可通过智算赋能获得增长,通过大模型服务的应用场景个数可以表达。第三是提升了数据资产的价值积累,例如OCR标注数据量、优质客诉工单等可复用资源提升了数据资产的价值。

最后,智算能力提升了员工的创新效率与工作体验。更好的信息采集和总结,更准确的决策辅助,更方便的基础代码协助,让员工将时间投入到更有效率、更有创新性的工作中去,为企业带来可观的长远收益。

当前,大模型技术仍处于高速成长期,金融行业应秉持守正创新理念,要做有责任、有担当的创新。中行目前已落地员工合规问答、智能研发、智能办公、智能风控、智能营销等领域数十个场景。但在当前大模型的安全性低、幻觉率高等问题未取得突破性进展前,我行对于大模型技术应用保持积极、理性的态度。基于已投产应用的研发经验及大模型技术特性,我们尝试从以下三个方面对智算技术与业务场景的融合趋势进行概括总结。

一是面向自主需求,协同多元算力。不同的人工智能技术有不同的特征和优劣,不同金融场景的需求也各不相同。目前来看,大模型技术既不能一统人工智能应用的天下,也不是所有业务场景的普世解,各机构还是要结合业务场景、风险特征、算法特点,合理选择大小模型,通过大小搭配、高低组合,实现高效应用,有效降低成本。

二是搭建企业级人工智能应用框架和体系,实现算力、数据和专家知识的高效共享,降低应用门槛。要能够支持业务人员通过“开箱即用”的方式自行开展业务验证、场景孵化等工作。就像关系数据库领域的SQL语言,简单学习可以满足数据管理的大部分要求,AI也需要类似的工具与机制,形成“人人会用、人人在用”的工具手段,才能将人工智能的优势转化为实际的业务价值。

三是构建人机相适的新型组织模式。人工智能的深度应用会重塑银行原有的岗位职责、业务流程和决策模式,“混合专家团队”“AI增强型敏捷小组”等组织形式逐步涌现;数字员工也将成为银行机构未来的常态劳动力;“人机协调”成为一个专业方向;要加快培养既懂金融又懂人工智能应用的复合型专家型人才,负责推进业务的全面智能化转型;要逐步构建起人工智能和行业专家紧密协作的新型模式。

来源:金融电子化

相关推荐