16张卡2个月训练百万病理切片,华为破解行业AI落地三大难题

B站影视 2025-02-24 20:13 2

摘要:近日,上海交通大学医学院附属瑞金医院(下称:瑞金医院)发布了瑞智病理大模型RuiPath。这个临床级国产多模态互动式病理大模型,覆盖了中国每年90%癌症发病人群罹患的癌种,并且亚专科知识问答深度达到专家级知识水平,改变了传统病理医生的工作模式,提升了诊断效率与

近日,上海交通大学医学院附属瑞金医院(下称:瑞金医院)发布了瑞智病理大模型RuiPath。这个临床级国产多模态互动式病理大模型,覆盖了中国每年90%癌症发病人群罹患的癌种,并且亚专科知识问答深度达到专家级知识水平,改变了传统病理医生的工作模式,提升了诊断效率与质量,成为国内医疗行业大模型中的一个明星。

在推出RuiPath的过程中,华为DCS AI解决方案成为关键,仅需16张卡就能在2个月里训练百万病理切片,令人印象深刻。会上,中国工程院院士、瑞金医院院长宁光坦言,比技术更重要的是守住生命至上的底线,我们只用经得起验证的技术,“如果华为的ICT基础设施、联通的传输能力这些技术注入医疗场景,那将是怎样的盛宴。”

行业AI落地仍存三大难题

当下AI大模型虽然在C端爆火出圈,但想在B端规模落地、充分赋能并不容易。华为副总裁、数据存储产品线总裁周跃峰在会上坦言,并不是有了硬件和算力,就一定能够实现大模型看病,或者能用大模型进行贷款风险评估等工作,其实还有很多障碍。

图源:观察者网

首先是数据工程问题。从通用大模型到行业场景大模型,训练所需数据并非原始数据,而是经过预处理的数据,收集、清洗等环节占模型开发训练时长的60%,需要高效归集、管理的数据工程能力。“客户的领域数据就像未经提炼的原油,价值巨大,但需要复杂的精炼才能转化为模型燃料。如果使用传统数据工程手段,用一个个python脚本、工具和人工标注方式来处理,效率非常低下。”华为数据存储产品线AI方案首席专家王帅称。

第二是行业场景模型训练和应用落地难。首先,大模型开发难度大,人员技术要求高,开发周期不可控。同时训练出来好的模型,也并不代表有了好的应用,比如一个精准的病理学诊断应当结合病人病史,基因组化、分子分析等一系列数据,这样的数据需要依赖外部的系统实时补充进来,需要环境易安装、模型易训练、应用易搭建的AI业务平台。

第三是训推成本问题。行业储备的硬件基础设施不可能很多,否则成本很高,比如不可能让每个医院都买一百张、一千张甚至上万张卡,来实现AI的行业化落地。

“RuiPath病理大模型光在图像训练时,如果不做任何优化,训练一轮就要上万的GPU ARS,而到了推理阶段,分析一张完整的40倍镜下WSI切片,需要计算上千万token,同时为了满足一百家医院以上的并发访问量需求,还需要GB级的显存。在这样的计算量和现存的需求之下,如果我们仅仅靠scale up队列硬件去满足需求的话,成本是非常高昂的,这样的AI注定只是一个奢侈品,并没有办法去普惠大众。”王帅解释称。

与此同时,由于算力等待、任务潮汐、资源碎片化等原因,AI集群可用度往往不足50%,需不断提升全系统调度效率。“如何能把这些卡高效利用起来是关键问题。我们不仅需要硬件,也需要软件和操作系统,对这些硬件资源做高效调度。”周跃峰指出。

华为DCS AI解决方案提供三大价值

如何破解行业AI落地的三大难题?华为DCS AI解决方案通过AI全流程工具链ModelEngine、DCS XPU池化和容器技术,以及AI-Ready融合数据湖等关键能力,解决了这三方面的障碍。在与瑞金医院合作的过程中,华为DCS AI解决方案提供了三大核心价值。

图源:观察者网

首先是通过数据工程工具化,缩短80%医疗训练数据准备周期。统一病理数据为高压缩、低时延的CSP格式,使能医疗数据标准化;Omni-Dataverse实现跨院区统一数据可视、可管、可用,使能医疗数据永远在线;ModelEngine内置40+专项数据处理算子,实现医疗知识快速生成,独有的CSP数据预处理免patch切分算子,百万规模切片预处理时长从月级缩天级。

其次是通过系统级模型训练与推理加速能力,实现模型训练周期缩短30%,推理并发提升一倍。高性能分布式文件存储系统支持NDS存算协同、KVCache智能分级缓存特性,减少特征值重复计算,提升数据加载效率;DCS软件提供SmartAI智能调度引擎,结合XPU池化基础能力,有效提升AI集群可用度。

第三是极简应用开发平台,支撑非专业开发者快速上手。低代码开发、可视调测、自动评估、一键部署、零代码维护,应用上线周期缩短80%;同时,华为也对外提供ModelEngine开源版本,更好服务于有开发能力的集成商伙伴,帮助集成商搭建其个性化的AI应用开发平台。

借助华为DCS AI解决方案,RuiPath仅用2个月便完成300余本病理诊断书籍和100万张数字切片的训练,显著提升医疗行业专家模型的训练、推理及精调效率,同时有效降低了部署成本。目前RuiPath已覆盖中国每年90%癌症发病人群罹患的癌种,并且亚专科知识问答深度达到专家级知识水平,改变了传统病理医生的工作模式,提升了诊断效率与质量。

“DCS AI解决方案,不仅是一个硬件,更重要的是提供了整套工具链,这些工具链的开放性,让更多集成商能够使用。华为就是提供了基础的工具链和相关软硬件,我们仍然需要和医院的医疗知识数据,以及相关的医疗信息系统,同时还有其他的AI应用集成商,多方面结合起来,就可以高效打造一个个成功案例。我们和瑞金医院在整个研制RuiPath大模型过程中,进一步让DCS AI解决方案变得越来越成熟,已具备往其他行业以及其他的医院持续去推进和落地的能力。”周跃峰说道。

来源:观察者网

相关推荐