摘要:中国工程院陈晓红院士研究团队在中国工程院院刊《中国工程科学》2025年第1期发表《人工智能大模型在电力设备运维场景中的应用探讨》一文。文章探讨了多模态AI大模型对电力设备健康状态评估、电力设备运行状态预测、电力设备故障诊断、电力设备寿命预测、电力设备故障检修策
本文选自中国工程院院刊《中国工程科学》2025年第1期
作者:陈晓红,傅文润,刘朝明,刘泽洪,李俊朋,胡志亮,胡东滨
电力设备运维是新型电力系统建设的重要环节,以人工智能(AI)大模型技术为代表的AI技术变革为传统电力设备运维的数智化提供了新机遇。
中国工程院陈晓红院士研究团队在中国工程院院刊《中国工程科学》2025年第1期发表《人工智能大模型在电力设备运维场景中的应用探讨》一文。文章探讨了多模态AI大模型对电力设备健康状态评估、电力设备运行状态预测、电力设备故障诊断、电力设备寿命预测、电力设备故障检修策略推荐等电力运维具体场景的赋能作用,辨识了数据问题制约电力AI大模型的应用成效、“算法黑箱”影响智能运维辅助决策的透明度与可靠性、环境变化导致电力AI大模型性能衰退等多模态AI大模型赋能电力设备运维的技术难点。着眼攻克相关技术难点,结合知识图谱检索增强生成、多模态对齐、微调和持续学习等大模型应用优化技术,构建了基于多模态AI大模型的电力设备运维系统架构,梳理了多模态AI大模型在电力设备运维场景应用时涉及的需求分析、模型训练、应用部署、运营管理等主要阶段的实现过程,进而提出了持续监控并优化数据质量、采用持续学习算法、建立模型性能反馈循环机制等大模型性能持续优化策略。进一步探讨了多模态AI大模型赋能电力设备运维的应用趋势和发展保障举措,以深化对电力设备智能运维领域的前沿技术认知,推动构建智能化、智慧化的新型电力系统。
一、前言
新一轮人工智能(AI)技术正在兴起和发展,相关产业变革加速演进,数字基础设施成为经济社会发展的新支撑。电力行业是经济社会发展的基础支撑和关键动力,在保障能源安全、推动产业升级、促进绿色低碳转型等方面发挥着不可替代的作用。电力系统正处于转向新型电力系统的重大变革中,建设数智化坚强电网成为行业内发展新质生产力的核心路径。随着可再生能源、分布式发电资源更高比例地融入电力网络,相关趋势更加明朗。这就带来“源网荷储”需求的多样化,显著增加系统优化与调节的复杂性,也使负荷与市场的不确定性相较以往的电力系统更为突出。亟需采用先进的计算模型与优化算法,以有效应对新型电力系统建设过程中面临的重大挑战。
电力设备运维是电力行业稳定可靠运行的重要保障,业务内容包括定期巡检试验、电力设备故障诊断、电力设备故障抢修等。电力设备一旦出现故障,可能导致大范围的停电并造成一定的经济损失,严重时甚至会引发安全事故。经济社会发展增加了电力需求,驱动电力设备规模不断扩大。电力设备类型众多,质量存在差异,标准化管理水平不高;相关数据呈现海量、多样化、异构等特征,充分挖掘并利用其潜在价值难度较大。此外,电力系统中的多个环节存在待识别和检测的对象,如电力设备故障诊断、输电通道信号传输等,对电力设备智能化提出了更高的要求。然而,现有的智能技术通常侧重解决某类单独任务,不同的垂直应用模型之间耦合程度偏低。面对电力设备智能运维范围不断扩大的现状以及数据模态多样化、场景多样化、数据量暴涨的情况,传统的深度学习、机器学习存在一定的应用局限性。电力设备运维智能化需要寻求新的解决方案。
近年来,AI理论与技术快速发展、算力大幅提升,ChatGPT、Flamingo等超大规模参数的AI大模型应运而生。AI大模型不需要对新任务进行重新训练,或者仅需要少样本进行学习即可获得良好的性能表现;当模型参数达到一定规模后,能够出现简单模型不具有的能力,表现为强大的泛化性、通用性和涌现性。快速变革的AI大模型技术,能够面向新型电力系统中智能运维的需求,提供一种新的解决方案。在已有的电力设备运维研究与实践中,语言大模型、视觉大模型、多模态大模型等AI大模型在不同的场景中各有优势:GPT-4、LLaMA等语言大模型具有强大的文本理解与生成能力,针对大量的维修日志、故障报告、技术文件等文本数据,能够快速识别并提取关键信息,协助开展知识挖掘和信息提取;YOLO、ViT等视觉大模型侧重处理图像和视频数据,可广泛应用于设备状态监测、故障检测、现场巡视等场景。CLIP、Flamingo等多模态大模型可进一步整合多模态数据(如表格、文本、图像、视频等),从多个维度理解并分析问题,支持信息互补与交叉验证,提供更为全面的设备健康分析与运维决策信息。不可忽视的是,在新型电力系统的运维场景中,电力设备运维任务具有多维性和复杂性,涉及多源异构数据的处理和分析,而单一模态大模型的适用性和泛化能力较低,难以满足实际需求。需要结合多模态AI大模型,进一步探讨电力设备运维的具体应用与解决方案,更好契合新型电力系统的智能化运维发展趋势。
AI大模型落地至电力设备运维领域,具有良好的学术研究与实践应用价值。本文分析AI大模型对电力设备智能运维工作的赋能作用,从算据、算法、算力等角度出发,凝练AI大模型在电力设备运维实践中的难点;结合知识图谱检索增强生成、多模态对齐、微调和提示工程等大模型应用优化技术,构建基于多模态AI大模型的电力设备运维系统架构;前瞻探讨AI大模型赋能电力设备运维的保障举措,为电力设备运维能力升级、新型电力系统建设提供参考
二、人工智能大模型对电力设备运维的赋能作用
电力设备(如主变压器、输电线路、断路器等)是电力系统的重要组成部分,在运行过程中发生的各类故障都会对电力系统的安全稳定运行、经济社会发展造成程度不一的影响。评估并预测电力设备的运行状态与健康水平,提高故障诊断的准确性、寿命评估的精确度,进而合理推荐检修策略以进行预测性维护,是保障电力系统正常运营的必要能力。在电力设备运维过程中充分利用智能技术来提高电力设备的安全、稳定、可靠运行水平,成为电力设备运维领域的迫切需求。电力设备运维经历了“人工运维阶段”“小模型运维”阶段,而AI大模型将开启“电力AI大模型运维阶段”,可为电力设备状态评估、运行状态预测、故障诊断、寿命预测、检修策略推荐等运维应用提供关键技术支撑,有望促成行业重大变革。推动AI大模型和电力设备运维工作的深度融合,加快电力设备运维工作智能化、智慧化发展,是电力设备运维领域的新兴研究方向。
(一) 电力AI大模型赋能电力设备健康状态评估
电力行业定期对变压器、电抗器、断路器等设备进行健康状态评估,以确保电力设备的安全稳定运行,当前的应用多基于数学分析方法、机器学习方法开展:对于前者,通常采用层次分析法、熵权法来量化设备状态指标的权重,揭示相关指标与设备健康状态之间的关联;对于后者,较多采用人工神经网络、聚类分析、贝叶斯网络等算法,结合历史运行数据直接建立预测模型,实现状态指标与设备健康状态的映射。这些方法不可避免地存在一些难点:电力设备运行数据具有多源异构特征,不便开展高效融合与利用;受限于既定检修计划,缺乏实时、动态自适应的健康状态评估能力;大型关键电力设备异常状态的历史样本极为稀少,模型训练易受不平衡数据的影响,可能存在过拟合风险。
电力AI大模型在电力设备健康状态评估中展现出更强的综合能力与适应性,可有效应对上述难点。在工业互联网平台的支持下,电力AI大模型能够整合原本相互独立的监测系统,对表格、文本、音频、图像、视频等多模态数据进行清洗、标准化、特征融合,进而构建统一的数据池,为设备健康评估提供更全面的数据基础条件。电力AI大模型中引入增量学习、在线学习机制,能够实时更新参数并动态适应设备运行工况的变化。例如,当环境温度和负荷波动、设备老化时,电力AI大模型可自动调整评估策略,支持持续跟踪和即时诊断;与依赖定期检修的传统方式相比,这种自适应能力可更早发现退化趋势,及时提供故障预警。在关键设备异常样本稀缺、数据不平衡的情况下,电力AI大模型通过小样本微调、迁移学习、检索增强生成等方式,提高对异常状态的识别能力。通过在相似领域模型上进行预训练,再对目标设备的少量异常数据进行微调的方式,电力AI大模型可以快速掌握故障特征并高效完成故障评估;再与差异化加权算法相结合,显著提高对稀有异常状态的检测能力,全面提升设备健康状态评估的准确性。例如,集成图神经网络、大语言模型的RoBERTa-GAT缺陷评级分类方法,应用结果相较最优基准方M模型的准确度提高约8个百分点。
(二) 电力AI大模型赋能电力设备运行状态预测
电力设备运行状态预测不同于电力设备状态评估,侧重分析电力设备未来的运行情况。现有的电力设备状态预测方法通常以特定的关键指标作为预测目标,利用AI技术在解决高度非线性、多重关联性问题上的优势,构建时序或关联预测模型;常见的方法有支持向量机、循环神经网络、人工神经网络等机器学习算法。这些方法在实际应用时存在一些不足:难以融合多类型事件的识别结果,无法刻画设备运行状态的全局态势,在未来态势预测和动态变化规律的描述方面能力不强;新型电力系统的发展伴生着设备运行工况复杂多变、故障类型多样化的情况,现有的“小模型”在应对复杂条件下新型设备的故障演化规律时能力有限;未能有效建模设备之间复杂故障的相关性,难以准确反映系统中设备之间的联动效应,降低了系统预测的精准性。
电力AI大模型具有深度学习、多源异构数据处理能力,可整合表格、文本、图像、音频、实时传感器数据,提取关键参数并构建设备的全景知识图谱,从而打通“数据孤岛”,提升数据利用效率。例如,电力AI大模型在分析主变压器的温度变化、负荷模式、实时运行参数的基础上,能够精准预测异常升温或负荷超限的风险,提前发出预警,辅助优化设备运行工况,降低突发性故障的出现概率。电力AI大模型具有强大的学习能力和动态适应能力,可实时优化状态评估和故障预测模型;即使在新型电力设备缺乏特殊环境运行经验的情况下,仍可通过面向历史数据的深度挖掘和模拟分析来弥补不足,预测复杂工况下的故障演化路径。电力AI大模型在设备之间的故障相关性建模、全局态势分析等方面具有显著优势,如在复杂网络分析与大规模并行计算的基础上,能够捕捉设备之间潜在的联动关系,全面预测电力设备关键特征参数的变化趋势。
(三) 电力AI大模型赋能电力设备故障诊断
电力设备故障诊断的任务是分析设备运行数据和故障数据,快速识别故障的类型、原因和具体位置,为设备的故障恢复及维护提供可靠依据。现有的模型驱动电力设备故障诊断方法依赖电力设备的物理特性和运行规律,通过数学建模或规则推导进行故障诊断,所得结果具有较好的解释性,但在复杂系统和新型故障模式上的应用可能受限。数据驱动的电力设备故障诊断方法基于机器学习和深度学习技术,分析设备运行数据并自动提取特征及模式,适合复杂场景应用。这些方法在实际应用时存在一些不足:过于依赖数值特征,忽视多模态数据的融合,难以刻画复杂工业场景中的设备状态;电力设备故障数据量较小,面临长尾分布的问题;现有的深度学习模型泛化能力不足,不足以应对零样本或未知故障;无法同步完成多个设备的故障诊断任务,降低了故障诊断效率,不利于电力系统中的广泛应用。
电力AI大模型整合多模态数据、适应小样本学习、提升复杂故障处理等能力,在故障诊断方面大幅提升性能。例如,基于大语言模型的创新框架ParInfoGPT,用于小样本数据条件下旋转机械(如电动机、发电机等)的可靠性评估,对齿轮箱的故障分类准确率达到99.6%,较基准模型提升1.9~38个百分点;应用多模态大语言模型进行电力设备故障诊断,准确率提高至96.3%,优于随机森林算法(90.36%)、人工神经网络算法(86.07%)等传统方法。电力AI大模型依托通用性和知识融合能力,将不同故障类型的诊断知识集成到单一模型中,能够统一处理多模态数据,快速准确地识别各类故障,避免遗漏或误判;可以输出更详尽的故障信息(如故障的类别、特征、原因),辅助制定电力设备维护策略。电力AI大模型利用小样本学习和迁移学习能力,在仅有少量标注数据的情况下,可通过预训练和微调来快速适应目标设备的诊断需求,从而弥补数据不足带来的性能限制、克服小样本学习相关的挑战。针对工况复杂、故障类型多样化的问题,电力AI大模型利用多模态数据处理和复杂关系建模能力,开展典型缺陷的识别和分类,对涉及多个设备的故障进行交叉诊断,从而提供清晰的故障位置和类别信息并支持电力系统的高效运维。
(四) 电力AI大模型赋能电力设备寿命预测
电力设备寿命预测的主要任务是从历史监测数据中提取特征信息,识别并量化电力设备的退化水平,进而预测剩余寿命。现有的模型驱动电力设备寿命预测方法依赖对设备退化机制的深入理解,通过物理模型或统计模型进行预测,相应结果具有良好的理论基础和可解释性。数据驱动的电力设备寿命预测方法利用传感器获得的数据,通过机器学习模型捕捉设备运行状态及退化特征,可更好适应复杂工业场景[27,28]。这些方法在多维传感器信号建模、任务适应性方面存在局限性:难以全面捕捉时间依赖性和空间相关性,不利于关键特征的充分提取;泛化能力较弱,在操作条件和环境多变的情况下需要频繁调整模型,不利于高效部署和架构统一。
电力AI大模型具有良好的建模能力和任务适应性,是设备寿命预测的突破性解决方案;能够显著提升设备寿命预测的效率和准确性,为复杂工业场景下的电力设备健康管理提供智能化支持。① 电力AI大模型整合多层自注意力机制和知识图谱技术,能够同时捕捉传感器数据中的时间依赖性和空间相关性,自动提取设备退化的关键特征,实现对设备健康状态的全面理解。例如,在变压器的寿命预测中,电力AI大模型分析电力设备负荷曲线、运行环境及维护记录,判断密封件老化、绝缘油泄漏等状况,进而预测变压器的剩余寿命。② 电力AI大模型泛化能力良好,能够利用小样本学习和迁移学习技术,在多变的操作条件下快速适配新任务,无需重新进行大规模的调整超参数或训练。电力AI大模型冻结部分预训练层并微调任务相关层,在新任务中的表现显著优于传统方法。基于大语言模型的设备寿命预测方法在涡轮发动机剩余寿命预测中的均方误差为12.96%,较最优基准模型下降5.53个百分点。③ 电力AI大模型采用统一的架构设计,可以同时处理多任务、多信号输入,保持一致性和高效性并降低部署与维护成本。
(五) 电力AI大模型赋能电力设备检修策略推荐
电力设备智能检修的主要任务是评估并预测设备状态,结合预先设定的可靠性、经济性、实用性方面的多重优化目标,利用智能算法推荐检修时间、次序和方式。检修决策优化是多目标、多约束优化问题,求解方法主要分为数学规划、启发式智能算法:前者包括整数规划、线性规划等,但在高维度、强非线性、不确定因素较多的工况下应用局限性明显;后者包括遗传算法、禁忌搜索算法、粒子群算法等,通用性强、求解效率高,逐步成为设备检修决策优化的重要工具。现有的电力设备检修策略推荐方法缺乏设备运维知识系统的动态管理与更新能力,难以形成闭环的知识库构建与优化机制,不利于检修策略的普适性和持续改进;对复杂系统中设备之间的经济、结构、失效、退化量相关性建模能力不足,在设备故障耦合分析与协调优化方面存在局限性,难以处理多设备检修优先级排序、资源冲突等问题。
电力AI大模型依托多模态数据融合和深度学习技术,可全面提升电力设备检修策略推荐能力。在设备运维知识系统管理方面,电力AI大模型可将历史运维数据、检修日志、故障文本转化为知识,结合领域专家经验进行知识验证和优化。例如,在变电站设备的检修场景中,电力AI大模型可以自动提取负荷水平、运行时长、故障频次等关键维护特征,生成动态更新的知识库,通过强化学习和闭环学习机制实现知识库的自主优化。电力AI大模型还能够根据实际应用中的反馈,不断收集新的故障案例和运维数据,用于模型的迭代和优化;定期评估自身的模型性能,确保在不断变化的电力系统环境下维持准确性和可靠性。针对多设备系统中的关联性建模和优化问题,电力AI大模型通过知识图谱和图神经网络来深度挖掘设备之间的复杂关系。例如,在输电线路与变电站设备协调检修场景中,电力AI大模型可同时分析设备之间的结构相关性和失效影响,评估不同检修策略对系统可靠性的综合影响。电力AI大模型也可提供智能问答系统,支持开展运维人员技能培训,促进了解如何使用多模态AI大模型进行风险评估与决策,增强实际运维工作的应用成效。
三、人工智能大模型赋能电力设备运维的技术难点
多模态AI大模型可为电力设备运维提供高效、智能的辅助工具,成为构建安全可靠新型电力系统的新路径。也要清醒认识到,多模态AI大模型在电力设备运维中的应用尚处于积极探索和深化认识阶段,相关技术不完善而致电力设备运维过程面临诸多难点。
(一) 数据问题制约电力AI大模型的应用成效
1. 数据可获取性问题
电力AI大模型的训练过程依赖海量的电力数据,然而在模型研发过程中经常面临数据匮乏的困境。电力系统的数据通常来自电站、输电线路、设备,这种来源分散性加大了搜集和整合电力数据的难度;天气、环境、系统等外界因素难以采集,也是电力设备运维的主要难点。设备故障、电压失稳等电力系统中的异常事件发生概率低,客观上存在异常数据搜集困难的情况,导致极端的数据不平衡现象。新型电力系统正处于快速发展期,新设备的持续投入改变了原有电力系统的特性,降低了原有电力数据的数量与质量。
2. 数据质量问题
数据通常来自各种传感器和检测设备,存在重复冗余、缺失严重、来源广泛、结构复杂、量测误差大、存储格式不标准等问题,导致有效数据样本量偏少。电力设备故障数据主要来自现场运维记录,存在格式不规范、文本长、细节多、语义不完整等缺陷,导致数据质量不高。这些低质量的数据会对电力AI大模型的训练和推理造成不良影响,降低电力设备运维辅助决策的准确性与可靠性,不利于电力系统的安全稳定运行。
3. 数据安全问题
电力AI大模型在处理电力系统数据时,面临信息安全、隐私保护方面的挑战。电力系统规模庞大、构成繁杂,人员在日常工作中越权访问、下载或篡改数据的违规操作行为时有发生。如果在训练或微调过程中源数据或参数被篡改,电力AI大模型将会学习错误的信息,直接影响模型输出结果的准确性与可靠性。此外,电力AI大模型的训练数据通常需要上传至网络并在电力系统内部共享访问,一旦攻击者获取访问权限,即可利用电力AI大模型的智能问答系统获取电网运行状态、设备详情、安全协议等敏感信息,直接影响数据安全和电力系统安全。
(二) “算法黑箱”影响智能运维辅助决策的透明度和可靠性
1. 可解释性问题
电力AI大模型是“黑箱”模型,可以接收输入数据并经算法处理后输出预测或决策结果,但输出结果的运行逻辑、推理规则、决策过程等,对运维人员而言很难理解。电力AI大模型算法运行机理的弱可解释性,不利于决策者增强对模型的信任度,从而影响模型在电力系统中应用的接受度和认可度。造成电力AI大模型可解释性低的原因主要有3个方面。① 模型复杂度高。电力AI大模型内部包含数十亿甚至上百亿个参数,相应的逻辑和推理过程异常复杂,很难针对具体的输出给出解释。② 数据依赖性强。电力AI大模型在训练过程中依赖海量的电力系统数据,其中的偏见及错误都可能影响模型结果,也就难以判断训练数据的质量对模型输出的影响。③ 输出具有不确定性。电力AI大模型的输出结果是基于概率生成的,通常具有不确定性,针对同一输入数据可能产生不同的输出结果,进一步增加解释难度。
2. 可靠性问题
模型输出的结果是否准确可靠即为电力AI大模型的可靠性。在电力设备运维过程中,电力AI大模型的状态评估、故障诊断、检修策略推荐结果事关电力系统的安全稳定运行。然而,电力AI大模型在运维过程中会产生“大模型幻觉”问题,即容易生成不准确的信息,给出违背用户输入、与上下文内容矛盾或偏离事实的回答。“大模型幻觉”问题成为影响电力行业大模型应用的关键因素,这是因为电力行业对大模型输出内容的专业性、准确性有着较高要求,对不准确回答的容忍度较低。
在电力设备运维应用中,电力AI大模型输出结果的可解释性、可靠性问题广泛存在。例如,在电力设备健康状态评估过程中,对于模型输出的设备健康等级或潜在风险若缺乏明确的依据解释(如是否基于设备负荷、环境因素、历史数据),将使运维人员难以信服评估结果;模型预测的风险若与实际设备状态不符,则可能引发不必要的检修或者延误必要的维护。模型对电力设备未来状态的预测可能由于“大模型幻觉”而偏离实际,如误判某设备在高负载下会失效,导致资源浪费或产生安全隐患。在故障诊断场景中,模型可能定位某设备的故障点(如某变压器绝缘问题),但无法解释具体成因(如密封件老化、湿气侵入、机械应力过大),导致维修人员需额外排查多种可能性,也就增加了时间和成本。需要嵌入领域知识、改进数据处理、优化模型解释能力,以提升模型的实际应用价值和可靠性。
(三) 环境变化导致电力AI大模型性能衰退
1. 环境漂移
在大规模电力设备运维系统中,包括数据漂移、概念漂移在内的环境漂移直接影响模型的适应性和泛化能力,成为引发电力AI大模型性能衰退的主要因素。① 数据漂移指模型训练时使用的数据分布、实际应用时的输入数据分布均出现变化,通常表现为特征值的统计属性发生改变。例如,电力设备的负载、电压等参数的分布,可能随时间或季节的变化而发生波动,导致原本训练得到的模型在面对新数据时预测精度下降。② 概念漂移指模型的输入特征与目标之间的关系发生变化,导致原有的决策规则不再适用。这表明,即使数据本身的分布保持不变,目标变量的行为、数据之间的关系仍然可能发生改变。例如,电力设备故障的原因或模式会因设备老化、操作方式变动、新技术引入而发生变化,原先的模型无法准确预测这些变化。
2. 灾难性遗忘
在电力设备运维的应用过程中,电力AI大模型通常需要同时处理多个设备、场景、任务,这些状态之间可能存在较大的差异,设备的运行特征、故障模式、环境条件也会随时间发生变化。如果模型不能有效保存历史设备的故障模式,在新设备、新故障模式加入后可能遗忘原有设备的特征和故障诊断能力,导致预测准确性下降,出现“灾难性遗忘”现象。例如,电力设备老化、部件更换,引入新的运行环境等,都会导致原本适用的故障诊断模型在新环境下失效。
四、基于人工智能大模型的电力设备运维系统构建与应用方案
(一) 系统架构
电力行业现有的AI大模型多以ChatGPT、ChatGLM、百川等基础大模型为底座,面向安全监管、设备运维、营销客服、基建监控、调度运行等电网核心业务的实际需求,开展输变电巡视、现场作业管控、客户服务、配网调度等专业方向的智能业务场景建设,已取得阶段性进展。然而,受制于电力设备运维领域知识复杂、数据异构等实际情况,现有的AI大模型表现性能受限。例如,使用检索增强生成方案,面向电力等知识密集型领域时存在检索粒度单一、全局语义理解能力有限、推理能力缺乏等问题,面向电力设备运维的AI大模型仍处于积极探索阶段;不断升级的新型设备、更为复杂的设备结构等因素,也使现有的AI大模型产品在电力设备运维实践中不可避免地出现故障诊断失误、维修意见推送不准、“大模型幻觉”等现象,无法适应新型电力系统智能化发展需求。
针对上述应用背景,本研究面向复杂密集的电力行业知识,充分利用电力设备多模态特征之间的关系,结合知识图谱检索增强生成技术、多模态AI大模型技术、电力设备数据资源等,提出了基于多模态AI大模型的电力设备运维系统架构(见图1)。
图1 基于多模态AI大模型的电力设备运维系统架构
注:MySQL表示关系型数据库管理系统;Django表示一种高级网站框架;Vue表示一种用于构建用户界面的JavaScript框架;Docker表示一组平台即服务的产品;Graph RAG表示基于知识图谱的检索增强生成;RLHF表示结合人类反馈的强化学习;LoRA表示低秩适配微调方法;Fine Tuning表示微调技术;Prompt Tuning表示提示工程技术;vLLM表示轻量级大语言模型框架;PDF表示可携带文件格式;TATR表示表格转换器。
选取海量的电力行业专业书籍、国家和行业相关标准、电力设备台账数据、电力设备故障图片等数据资源,作为知识图谱检索增强生成的基础数据库、电力AI大模型的预训练电力大数据。在知识图谱检索增强生成中,采用命名实体提取、属性抽取、关系抽取、同指消解等方式构建电力设备知识图谱,利用事件提取、论元抽取、关系抽取、事件泛化等技术构建电力设备事理图谱;进而以电力知识图谱、电力事理图谱为检索数据源,向电力AI大模型提供包括实体信息、实体关系、推理路径在内的多粒度信息增益,用于弥补基础AI大模型在特定领域中知识准确性和可靠性方面的不足。① 在知识图谱检索增强生成框架中,AI大模型与知识图谱、事理图谱之间的互动策略包含了提示实体抽取、实体链接、子图查询、上下文剪枝、提示组装、文本生成等步骤。其中,提示实体抽取是在大模型上采用零样本提示技术,设计高效的实体抽取提示工程,引导大模型从输入文本中提取电力设备实体。② 在得到电力设备实体后,通过语义相似度的方式进行实体链接,将之与事理知识图谱的各个实体进行匹配,进而识别出事理知识图谱中最相关的图谱实体节点。③ 从事理知识图谱中查询相关图谱实体节点的关联子图,得到相关三元组后转换成自然语言,以便后续文本生成。④ 应用基于向量嵌入的语义相似度方法,计算三元组与输入文本的相似度,设定相应阈值,实现上下文剪枝,以过滤无用信息、增强检索效率与质量、提高文本生成的准确性和相关性。⑤ 基于事理知识图谱提取,得到三元组与输入文本,生成最终的输出文本。
在多模态电力AI大模型的整体预训练时,利用自动对齐、图像分类、智能语义分析等图像处理和自然语言处理技术,生成结构化的故障案例库、电力标准库、变压器专有词汇库、专家知识库等数据库。面向具体应用场景,针对故障部位检测、故障原因推理、维修意见咨询等特定的电力设备运维任务,基于构建的知识库、事理知识图谱图数据库,以Flamingo大模型为系统基座,应用微调和提示工程等技术,进行AI基础大模型的专项预训练,生成故障部位检测大模型、故障原因推理大模型、维修意见咨询大模型等专用预训练大模型。基于具体场景的图片、数字、文本等模态数据,融合多模态特征,即可有效提升大模型在特定任务上的表现性能。例如,引入转换器模型架构,基于众多的电力设备故障图片进行训练,可精准实现电力设备的故障检测;生成的视觉特征信息可自动输入大模型模块,支持多模态AI大模型的多模态集成,利于输出更精准的回答。在AI专项大模型的训练过程中,采用微调与提示工程技术来提高AI基础大模型在特定任务中的表现性能。基于电力设备运维领域的专家知识库生成微调数据集,配置与数据集相匹配的相关参数,采用多模态AI大模型微调指令并辅以领域专家抽样矫正的人类反馈强化学习方法训练AI基础大模型,可提升多模态AI大模型在特定任务上的表现性能。设计面向特定任务的提示词,基于专家领域知识库生成提示工程的示例,测试并训练多模态AI大模型,确保多模态AI大模型输出符合预期的目标格式文本。
面向电力设备运维的实际需求,基于多模态AI大模型的电力设备运维系统提供电力设备健康评估、电力设备运行状态预测、电力设备故障诊断、电力设备寿命预测、电力设备故障检修策略推荐等功能,支持多模态AI大模型与电力设备运维工作的深入结合,可为运维人员提供功能可靠的辅助工具。
(二) 技术要素
基于多模态AI大模型的电力设备运维系统,引入图像分类、智能语义分析、多模态对齐、微调、检索生成增强等关键技术,支持开展电力设备健康评估、电力设备运行状态预测、电力设备故障诊断、电力设备寿命预测、电力设备故障检修策略推荐等业务场景的垂直应用(见表1)。
表1 基于多模态AI大模型的电力设备运维系统技术要素
(三) 应用阶段
在电力设备运维场景下,电力AI大模型应用主要分为需求分析、模型训练、应用部署、运营管理等阶段。
1. 需求分析
应用电力AI大模型的核心需求涉及场景、目标、相关技术要求。明确模型在电力设备运维中需要解决的具体任务,如设备故障诊断、剩余寿命估计、设备健康监测等。与运维人员、管理者、技术专家进行沟通,深入了解运维过程中的关键点和共性需求,明晰变电站、输电线路等应用场景。设定模型的性能目标,如故障预测的准确性、响应时间、减少设备停机时间等。识别需要的数据,收集用于训练模型的数据集,保证数据的质量与数量。分析模型训练与应用所需的算力资源,确保大模型长期稳定运行。
2. 模型训练
根据需求分析阶段确定的任务和目标,开展电力AI大模型的训练与优化,确保模型能够高效、准确地完成电力设备运维场景的相应任务。对收集的数据进行去噪、标准化等预处理,确保原始数据的质量。根据任务目标提取相关特征,通过数据增强方法提升数据的多样性和鲁棒性,增强模型的泛化能力。将数据划分为训练集与测试集,在训练集上进行模型训练,利用交叉验证、网格搜索等方法调整模型的超参数,以优化模性能。根据设计的评价指标,在测试集上评估模型性能,确保模型具有良好的泛化性能。
3. 应用部署
将训练好的电力AI大模型部署到电力设备运维的实际环境中,提供实时的数据处理和智能决策支持能力。确保模型与现有的电力运维系统有效集成,设计模型与运维平台的应用程序编程接口,支持模型接收实时数据并提供实时预测结果。根据需求选择合适的计算架构,利用边缘计算进行数据处理和响应,使用云计算进行数据存储、模型更新、长期优化。设计实时数据的采集和传输通道,确保模型能够快速接收设备数据并进行分析。设计易于操作的交互界面,构建数据可视化、智能报告生成等模块,支持运维人员快速理解模型的结果和建议。设计冗余功能和容错机制,确保模型在面临硬件故障、网络问题时能够稳定运行。
4. 运营管理
电力AI大模型在部署后需要长期稳定运行,能够根据设备运行状态和环境变化进行优化。实时监控模型运行性能,采纳运维人员反馈,及时识别模型应用的潜在问题并针对性调整。采用增量学习、RLHF等技术,持续优化模型以适应新的设备和环境变化,避免技术遗忘和误差累积效应。设计系统故障应急预案,在模型出现异常时能够及时检测并应对,确保模型运行的稳定性。定期培训运维人员,辅助理解并有效利用模型开展日常运维工作;提供专家支持,及时解决模型应用中的技术难题。
(四) 大模型性能持续优化策略
在电力设备运维场景中部署电力AI大模型后,需要确保模型能够随着时间的推移和环境的变化而保持高效、准确的输出。在应用过程中可采用数项策略。
1. 持续监控并优化数据质量
确保模型的输入数据具有高质量,降低因数据质量问题带来的预测误差,维持模型长期稳定的性能。部署数据质量监控系统,实时监测传感器数据、设备日志等的质量,确保数据的完整性、准确性和一致性。建立自动校准机制,避免数据错误或缺失导致模型预测失效的情况。应用数据异常检测技术,实时识别并修正数据中的异常值或缺失值。
2. 采用持续学习算法
采用持续学习算法,确保模型在接收新的数据时持续进行更新,无需重新训练,也可迅速适应新设备的状态、故障模式以及环境变化,不断提升模型的预测能力。采用经验重放等技术,确保模型保留并更新历史知识,增强模型的长期稳定性和适应性,防止“灾难性遗忘”(即引入新数据后导致旧数据的知识丧失)现象。
3. 建立模型性能反馈循环机制
设计应用反馈通道,鼓励运维人员对模型的预测结果和决策建议提供反馈,将来自一线的反馈应用至模型调整。在模型内部采用RLHF,使模型根据运维人员的反馈进行自我优化和调整,确保长期应用时的有效性。设计智能化的监控系统和自动化的模型更新机制,依据实时数据反馈、预设的性能阈值进行判定,允许模型定期或根据需要进行自动更新与优化,避免数据变化、设备性能退化导致的模型性能下降。
五、人工智能大模型赋能电力设备运维的应用趋势与发展举措
(一) AI大模型赋能电力设备运维的应用趋势
1. 多模态数据集成
在物联网、大数据技术快速发展的背景下,电力设备运维数据急剧增加,具有多类型、多源头、多模态的特性。为此,电力AI大模型需要具备深入分析并有效融合多源异构数据的能力。未来的技术发展方向是:构建可高效整合不同模态数据的模型架构、统一的骨干网络,增强模型的可扩展性;设计契合实际场景的预训练任务,更好捕捉不同模态之间的关联性,简化多模态信息的编码过程,利于模型高效处理各类复杂场景中的下游任务。
2. 大模型私域化
在电力设备运维领域,电力AI大模型应用涉及大量敏感数据和关键决策,不仅关系到设备的运行与维护,还将影响能源安全和经济社会发展。为此,大模型在电力设备运维领域的应用需严格限制在私域化范围,将数据隐私保护和模型安全防护置于重要位置。未来的技术发展方向是:对收集的电力设备运维数据进行脱敏处理,采用数据加密技术传输和储存数据,设定严格的权限管理机制,充分保护数据的隐私性;应用差分隐私技术,在模型训练过程中引入噪声,增强模型保护能力;对模型进行剪枝处理,合理降低模型的复杂性,规避模型暴露敏感信息带来的风险。
3. 大模型自主学习
电力设备复杂多样、运行环境不断变化,如模型无法可靠适应新场景,将出现预测不准或决策失误的情况。电力AI大模型需具有自主学习能力,以持续适应电力系统的变化,确保实际运维应用的适应性。未来的技术发展方向是:发展持续学习技术,使大模型接收到新的数据时仅需对部分参数进行微调,无需重新训练整个模型,据此规避过度依赖历史数据、更好适应设备和环境的变化;应用RLHF进行与人类、环境的交互,使模型能够自我调整,逐步优化应用性能,提高对设备和环境变化的适应能力。
(二) 推动AI大模型赋能电力设备运维的发展举措
1. 推进“产学研”融合,激发技术创新活力
鼓励电力行业、高校、企业联合开展AI大模型赋能电力设备运维的专项研究,集中优质资源,注重理论与实践相结合,联合攻克关键技术难题,深化AI大模型在电力设备运维领域的垂直应用。建立多样化的激励机制,激发参研各方的创新活力与合作意愿,加快推动AI大模型在电力设备运维领域的发展和应用。开展电力设备运维AI大模型标准化研究,由信息技术专家、电力行业专家联合制定标准体系和评估机制,覆盖研发技术规范、业务服务需求、模型测评方法等,提高AI大模型在电力设备运维实践中的实用性和规范性。实施多元化专项委托研究项目模式,加快推动电力设备运维AI大模型的协同研发。构建电力AI大模型的复合型人才培养路径,高质量培养电力行业复合型人才,支撑电力行业多场景数字化、智能化、智慧化转型。
2. 建立大数据平台,完善数据安全制度
开展电力设备运维系统的数字化转型,精准提取电力设备的多维度数据。针对具体场景任务,制定数据清单,确保电力设备数据集的完备性、一致性和同步性。建立电网私域大数据平台,实现各地电网系统多领域数据的共享互通,打破数据壁垒,破除“信息孤岛”,有效利用私域数据。构建大模型运行平台,由电力行业专家设计微调数据集,据此迭代训练AI大模型并实现电力行业多场景垂直应用。构建覆盖数据全生命周期的数据安全体系,落实数据分类分级保护制度,建立合规公正、安全审查、监测预警等方面的数据制度。严格实施身份验证、权限管理等措施,确保敏感数据的私密性。采用数据加密技术,确保电力数据在传输及存储过程中的异质性。部署网络安全设备,阻止恶意攻击和限制访问。完善数据备份与恢复机制,确保数据在遭受损坏或丢失时能够及时恢复。开展运维人员安全意识培训,防范内部人员不当操作导致数据泄露。定期检测并修补模型漏洞,迭代更新模型和应用程序,提升模型防御能力。建立数据安全政策和流程,例行开展监管审查和监督。制定数据安全事件应急响应计划,及时处置发生的安全事件。
3. 加强基础设施建设,优化算力供给体系
规划和建设本地智能算力中心,持续优化电力AI大模型的算力综合供给体系,确保私域数据安全。推动算力结构多元配置,逐步提升智能算力占比,优化智能算力与通用算力协同效率,满足不同电力场景的应用需求。探索建设布局合理、泛在连接、灵活高效的算力互联网,优化算力高效运行质量。发展“存算网”协同技术,在算力中心合理配置存算比例,研发自主可控的存储设备,灵活保障电力AI大模型的算力需求,适应定制化应用情景。建立算力监控系统,实时监测算力运行状况,优化算力配置,提高整体性能。以场景需求为导向,实时调整算力分配,采用负载均衡技术,提高算力资源利用率。应用边缘计算技术,就近下放部分计算任务,降低通信延迟,缓解带宽压力。采用智能技术预测算力需求,提前调整算力资源调配,适应各类场景的算力需求。
4. 构建风险管控机制,提升模型应用可信度
构建风险度量体系,风险管控流程,风险规划、监测和应对处理机制,制定行业应用标准,开发关联工具,防止电力AI大模型应用产生错误输出、数据泄露等问题。在电力行业,组建专业性的大模型监控团队,培训安全管控人员,建立实时监控系统;监测大模型应用过程中的错误和问题,及时进行模型更新与修正,从而全面管控模型应用风险、提升模型可信度。采用可解释性技术,提升模型输出的透明度,增强电力行业对大模型决策结果的信任度。引入伦理审查机制,评估模型应用的潜在影响,确保使用过程的伦理合规。定期进行模型偏见检测和压力测试,模拟极端情况下电力AI大模型的响应质量和稳定性,提高模型在各类场景应用时的公平性和普适性。
六、结语
AI大模型为电力设备运维带来了新发展机遇,电力设备运维进入“AI大模型运维阶段”。在此背景下,本文深入探讨了AI大模型在电力设备运维场景中的赋能作用、技术难点,提出了系统架构设计,研判了AI大模型赋能电力设备运维的应用趋势与发展举措。相关内容有助于深化对电力设备智能运维领域的前沿技术认知,推动构建智能化、智慧化的新型电力系统。
展望未来,可在以下方面开展AI大模型赋能电力设备运维的深化研究与应用。加快推进AI大模型与电力设备智能运维场景的深度融合,增强多模态数据处理能力,实现更全面的设备感知与精准诊断。推动AI大模型与智能机器人、物联网等智能硬件的协同应用,增强电力信息基础设施的抽象思维和语义处理能力,提升电力设备运维自动化和自主化能力。提高AI大模型的自我理解、自我迭代、自我完善能力,在电力设备运维过程中持续优化算法和决策机制,逐步实现更智能、更自主的电力设备运维模式。在此基础上,完善数据治理与安全管理机制,确保数据合规使用,推动电力设备智能运维的高质量和可持续发展。
注:本文内容呈现略有调整,若需可查看原文。
作者简介
陈晓红
管理科学与工程、工程管理及数据智能专家,中国工程院院士。
主要从事决策理论与决策支持系统、“两型社会”与生态文明、数据智能与智慧社会等研究。
注:论文反映的是研究成果进展,不代表《中国工程科学》杂志社
来源:中国工程院院刊