技术应用 | 基于时序大模型的数据质量监测探索研究

B站影视 电影资讯 2025-06-09 09:46 2

摘要:中国人民银行发布的《金融科技发展规划(2022—2025年)》明确指出,必须加强数据能力建设,强调数据的准确性、有效性和易用性。传统质量管理方法依赖于人工配置指标和阈值,效率低、覆盖范围有限,难以全面及时地识别和评估风险。

文/国盛证券信息技术总部 包万里 张冰清 陆修然

中国人民银行发布的《金融科技发展规划(2022—2025年)》明确指出,必须加强数据能力建设,强调数据的准确性、有效性和易用性。传统质量管理方法依赖于人工配置指标和阈值,效率低、覆盖范围有限,难以全面及时地识别和评估风险。

1. 数据质量管理面临的挑战

随着业务的不断扩展、市场波动的加剧以及业务复杂度的增加,传统数据质量管理在覆盖范围、管理成本、灵活性等方面面临诸多挑战,迫切需要通过智能化的手段进行优化升级。

(1)覆盖范围局限。传统数据质量监测仅能覆盖部分系统的部分数据集或数据类型,无法贯穿数据全生命周期,导致许多潜在的数据质量问题难以发现。

(2)人工依赖严重。传统监测需要大量人工干预,包括指标配置、阈值预设等,这不仅导致高昂的人力成本和低下的监测效率,还易受主观因素影响产生误差,难以高效利用运维数据,响应速度也难以满足实际需求。

(3)应对复杂问题能力弱。传统监测主要依赖规则和阈值,在识别深层次异常,如数据不一致、时序上下文异常、数据结构变动等方面存在明显不足。

2. 时序大模型的发展与优势

在时序技术的发展历程中,2018年是一个重要的转折点。在此之前,时序统计模型占据主导地位,典型的代表模型包括移动平均模型(MA)、Holt-Winters模型以及差分自回归移动平均模型(ARIMA)等。这些模型的优势在于结构简单、易于解释,计算成本也相对较低。然而,它们假设条件较为严格,在面对复杂数据时适应性欠佳,难以准确地进行分析和预测。

自2018年起,时序技术进入了深度模型阶段,出现了时间卷积网络(TCN)、DeepAR、PatchTST等模型。这类模型能够捕捉复杂的时序特征,在特定场景下展现出强大的分析能力。但它们也面临着一些挑战,例如计算过程复杂,对硬件资源要求较高;并且缺乏跨场景迁移的能力,在不同的应用场景中需要独立构建模型,这无疑增加了开发成本和时间成本。

图1 时序模型发展趋势图

目前,时序大模型的发展主要呈现出两个方向:一是将大型语言模型(LLM)应用于时间序列分析,借助其强大的语言理解与生成能力,挖掘时间序列数据中的潜在信息;二是专注于原生时序大模型的研发,这也是本文重点研究内容。

(1)大规模预训练。通过在多领域、大规模数据上的预训练,时序大模型获得通用特征提取能力,能广泛适用于金融市场分析、天气预报、工业制造、医疗健康等多个领域的预测任务。

(2)时间依赖性捕捉。凭借大量参数和复杂的网络结构,时序大模型可以精准捕捉时间序列中的非线性关系和长期依赖关系,有效学习周期性、趋势和季节性等特征。

(3)强大的泛化能力。在少样本和零样本学习场景下,时序大模型表现优异。基于预训练学到的通用特征,它能在训练样本有限时进行预测,对未见过的序列模式也能做出合理推断。

(4)可扩展性。具有可扩展的架构,可以通过增加参数量或扩大预训练规模,提升性能以处理更复杂、多维和大规模的数据集。

1. 数据质量管理建设目标

(1)实时监测与预警。运用时序大模型对证券数据进行实时监控,及时发现潜在质量问题并触发预警,确保快速响应和处理。

(2)自动化处理与流程优化。借助模型的泛化能力,对不同时间序列数据快速预测,减少人工干预,提高处理效率,并自动优化监测流程,提升智能化水平。

(3)易于集成和维护。确保时序大模型能与现有数据平台和系统无缝集成,简化部署和维护流程。

(4)降低管理成本。通过智能化监测预警系统,预计将排查数据问题的人力成本降低50%,响应时间缩短至分钟级别,显著降低运维成本。

2. 时间序列大模型选型

目前,全球领先企业和高校积极推动时序大模型发展,开源社区的活跃也为研究提供了便利。本文主要对比了三种主流时序大模型在A股行情波动下的预测效果。

表1 时序大模型重点特征对比表

Chronos模型:由Amazon团队开发,基于T5架构,采用均值缩放和分箱量化技术,在单变量时间序列预测方面表现突出,处理协变量和多变量预测也显示出潜力。

TimesFM模型:由Google开源,采用了仅解码器的Transformer架构,在大规模时间序列语料库上进行预训练,支持处理不同长度和频率的时间序列输入,并允许协变量作为特征。

Moirai模型:由Salesforce团队开发,在大规模的LOTSA数据集上通过掩码预测训练,能捕捉不同频率下的时间序列模式,适应多种协变量,还可提供概率预测。

为了全面评估三个时序大模型的性能,本文对比了模型在四个数据集上的表现,利用均方根误差(RMSE)量化评估模型效果。

(1)数据集A使用的是AirPassengerPanel数据集,该数据集记录了自1949年至1960年间每个月的国际航空旅客数量,有明显的趋势性和季节性。对比结果显示Chronos模型预测曲线与实际数据最吻合,RMSE最小。

表2 时序大模型在各数据集的均方根误差(RMSE)对比表

(2)数据集B在数据集A的基础上人为引入了几个显著陡升的数据点,旨在模拟证券市场开市初期数据陡增情况。对比分析显示Chronos模型拟合最佳,80%置信区间基本覆盖了数据集实际数据点。

图3 时序模型基于数据集B的预测效果

(3)数据集C由公司内部私域的业务访问量数据构成,以1min频率汇总某业务访问量数据,覆盖了业务高峰时段。对比分析显示三个时序大模型表现效果均欠佳,其中TimesFM拟合效果相对较好,但置信区间覆盖率差。

图4 时序模型基于数据集C的预测效果

(4)数据集D在数据集C的基础上变更数据采集频率为5min。对比结果显示Chronos模型拟合效果和置信区间覆盖率最优。

图5 时序模型基于数据集D的预测效果

综合来看,Chronos模型在拟合程度和RMSE指标上优于其他两个模型,因此本文重点探索Chronos时序大模型的应用。

3. 数据质量管理应用架构

首先,搭建专家引擎、规则引擎、大模型推荐等方法,将日志系统、业务系统等各类数据元进行分类。然后,对每一种数据分类进行场景分析,例如历史数据的变化,建立适合的数据质量检测规则单元集合。检测集合中包括均值、最大值、最小值、值域、中位数等基础统计学指标,不同的分类对应不同的规则集合。最后,基于极速的计算引擎,计算每个数据元的基础检测指标,通过时序大模型等工具构建“预处理-预测-告警-修复”的全链路数据质量管理。

图6 时序大模型应用架构图

4. 数据质量管理应用场景

(1)业务访问量预测和监控。业务办理和交易访问量是衡量系统稳定性的核心指标,该指标与整体市场表现紧密相关。通过时序大模型对业务访问量进行监测,可及时识别潜在接口故障,在大面积影响客户服务之前及时解决问题,提升服务可靠性和效率。

图7 业务访问量异常监测展示图

业务访问量异常监测流程包括以下步骤:首先,实时收集各业务功能接口访问日志,按分钟维度统计访问量及沪深300成交量数据。其次,计算访问量和沪深300指数成交量相关性,按比例调整访问量数据,消除市场行情对模型输入数据的影响,将多因子变为单因子变量输入模型。再次,利用Chronos模型预测,结合统计学方法(中位数、均值、箱线图法)对比实际业务量发现异常。最后,基于模型预测置信区间判断异常程度,核实并修复异常业务模块。

目前时序大模型监测系统已接入客户账户分析、智能营销等关键系统,实现了从被动响应到主动预警的转变,故障发现时间缩短到分钟级,有效降低了客户投诉量。

(2)数据仓库指标异常监测。数据仓库作为公司信息处理的核心,其稳定性和数据质量直接影响业务决策。我们利用时序大模型对数据仓库各数据指标进行监测,及时发现和纠正数据问题,保障数据资产的质量。

数据仓库异常监测流程主要包括以下步骤:首先是自动分类数据库中未分类的数据元,利用大模型分类推荐、数据元血缘推荐和自定义分类推荐相结合进行分类。其次是对数据元进行多维度的质量评估,结合证券行业金融数据标准,将评估指标划分为六大维度:完整性、准确性、规范性、一致性、唯一性、及时性。从表元数据、表数据和字段信息三个层面,针对数据元自动匹配并计算不同的评估指标。再次是利用Chronos模型结合统计学和机器学习方法预测评估指标,对比发现异常。最后,基于模型预测的置信区间判断指标异常程度,并进行告警核实和修复。

当前,依托于时序大模型技术的数据仓库质量监测已覆盖经纪业务、信用业务等核心业务领域的数据指标。结合时序大模型、联邦查询等技术,公司的数据质量监测覆盖率从5%提升到60%。不仅提高了决策效率,还显著降低了企业在数据质量管理上的运维成本,为企业的数字化转型和智能化升级提供了强有力的支撑。

我们将时序预测应用到数据质量管理,突破了传统监测的局限,实现实时智能化监测与预警,降低了运维成本,提升了数据质量管理的效率和准确性。

相比传统的为特定数据集训练特定模型的范式,时序大模型泛化能力更强,集成和维护更便捷。展望未来,时序大模型在数据质量管理中的应用还可以继续优化演进。

1. 探索多变量模型的应用

通过分析多个相关变量间的复杂关系,可以提高预测的准确性和可靠性。还可与语言大模型结合,实现对文本数据的智能解析和质量监测,为数据质量管理提供更全面的信息。

2. 训练定制化时序大模型

针对证券行业的特定需求,开发定制化的时序大模型,学习企业特有的数据特征和模式,利用国内证券市场的海量数据训练,把握国内市场波动节奏,提升时序大模型在证券行业场景应用下的监测精度和效能。

来源:金融电子化

相关推荐