摘要:伴随GNSS数据处理技术的进步及其衍生水汽产品精度的提高,GNSS大气可降水量(PWV)所蕴含的丰富水汽信息被逐渐应用于降雨预报。然而,目前联合GNSS PWV和气象参数的短临降雨预报模型在挖掘参数信息方面仍存在局限性。因此,本文提出了一种基于随机森林算法(R
本文内容来源于《测绘学报》2024年第10期(审图号GS京(2024)2165号)
联合GNSS PWV和气象参数的短临定性降雨预报改进模型
熊朝晖1, 郑敦勇,1, 姚宜斌2, 何畅勇3, 龙四春1, 卢世德4, 周健4, 赖咸根41.湖南科技大学地球科学与空间信息工程学院,湖南 湘潭 411201
2.
3.
4.
摘要
伴随GNSS数据处理技术的进步及其衍生水汽产品精度的提高,GNSS大气可降水量(PWV)所蕴含的丰富水汽信息被逐渐应用于降雨预报。然而,目前联合GNSS PWV和气象参数的短临降雨预报模型在挖掘参数信息方面仍存在局限性。因此,本文提出了一种基于随机森林算法(RF),联合PWV、温度、气压和相对湿度等参数的距平和变化率的改进模型。通过对湖北、湖南和江西3省的定性降雨预报结果进行分析,发现本文模型能准确地捕捉到PWV和气象参数对降雨的影响。与只使用PWV和气象参数的反向传播神经网络算法(BPNN)的模型相比,本文模型的预报正确率为89.57%,其提升幅度为2.29%;错报率为15.06%,降低了2.76%。在暴雨频发期间,本文模型的预报性能表现出更明显的提升,相较于基于BPNN算法的预报模型,本文模型的预报正确率提高了5.57%,而错报率则降低了2.37%。进一步研究发现,当起报时刻分别设为时刻t和时刻t-1,以预报t+1时刻的降雨状态时,选择时刻t-1作为起报时刻会导致预报正确率有所提高,但同时错报率也会相应上升。
第一作者:熊朝晖(1995—),男,博士,主要从事GNSS地学应用、灾害天气预警等相关研究。E-mail:
通信作者: 郑敦勇 E-mail:zdymath@hust.edu.cn
本文引用格式
熊朝晖, 郑敦勇, 姚宜斌, 何畅勇, 龙四春, 卢世德, 周健, 赖咸根.
XIONG Zhaohui, ZHENG Dunyong, YAO Yibin, HE Changyong, LONG Sichun, LU Shide, ZHOU Jian, LAI Xiangen.
阅读全文
随着GNSS数据处理技术的进一步发展,其衍生产品——GNSS大气可降水量(precipitable water vapor,PWV)的精度也得到了显著提升。由于蕴含丰富的水汽信息,GNSS PWV逐渐被应用于降雨预报中,成为气象学研究的重要工具之一[1-2]。降雨预报根据不同的时效性可以分为多个类别,其中包括0~2 h的临近预报、2~6 h的短时预报和6~72 h的短期预报。其中,临近预报和短时预报因其实时性和紧迫性,被统称为短临降雨预报[3]。然而,传统的数值天气预报模型存在初期不稳定和对硬件要求高等问题。同时,基于雷达的方法在复杂地形区域也存在数据缺失和测站稀疏等不足。与数值天气预报模型和雷达回波相比,GNSS接收机具有受外界环境影响小、全天候观测和易于布设等优点,因此,GNSS的水汽信息有望为发展一种低成本、实时快速且便捷准确的新型短临降雨预报方法提供丰富的新数据[4-6]。
文献[7]发现PWV超过特定阈值后,降雨可能性将大幅增加,这为降雨预测提供了新的视角。文献[8]以哈尔滨为例,发现当PWV超过25 mm且其变化量大于5 mm时,降雨发生的概率约为50%。文献[9]通过对秦皇岛2007年的降雨事件进行分析,发现GNSS PWV在短时间内迅速增加时,未来4 h内发生降雨的概率高达87.6%。文献[10]通过武汉的降雨事件验证了实时GNSS PWV监测对降雨预报的可行性,但也强调了降雨机制的复杂性,指出不能仅依赖PWV进行预报。文献[11]发现极端降雨事件与PWV存在紧密联系,南极的降雨过程常伴随着PWV的上升。文献[12]针对北京2012年极端降雨事件分析表明,降雨前3~4 h内PWV达到峰值,这证明了PWV可以作为降雨预警的重要指标。文献[13]提出了一种基于PWV时间序列的定性降雨预报方法,其中PWV变化率作为主要因子,同时考虑PWV及其变化量来确定阈值,该方法正确率和错报率分别为80%、66%。文献[14]将PWV短期内(2~6 h)的增量和较长时间(大于10 h)的变化率作为输入参数建立模型,可预报浙江未来2~6 h内80%~90%的降雨事件,以及90%以上的暴雨事件。文献[15]在新加坡建立了一种时效性为1~5 h的模型,该模型基于径向基神经网络能预报90%的降水事件,错误率与传统方法相当。文献[16]和文献[17]分别在朝鲜半岛南部山区和印度证实了PWV对降雨的指示作用,进一步证明了PWV在全球范围内降雨预测模型中的价值。上述预报方法主要分为两类:第1类方法仅依赖于PWV及其变化率,通过简单设定阈值来判断是否降雨[13-14],但降雨受多种因素影响,仅考虑PWV存在一定局限性。第2类方法基于机器学习结合PWV和气象参数预报降雨[11],该类方法主要基于瞬时PWV和气象参数,但未深入捕捉PWV和气象参数变化趋势对降雨的影响,因此在复杂多变的天气系统中可能存在不适应性。距平Ano和变化率Var能有效提取参数的变化信息。具体而言,距平Ano为系列数据中单个数值与平均值avg的差异,如式(1)所示,被广泛应用于天气异常变化的分析,可以在一定程度上增强PWV和气象参数的作用。而参数变化率Var被定义为参数增量Δx与时间增量Δt之间的比值,如式(2)所示,能反映参数的变化趋势
(1)
(2)
式中,obsi为第i个观测值。
文献[18]及文献[19]先后提出了利用反向传播神经网络(back-propagation neural network,BPNN),结合PWV及多气象参数建构建降雨预报模型。然而,文献[20]指出神经网络算法更适于每一维变量都具有同样含义的同质类数据,相比之下,决策树算法在处理异质类数据时表现更佳。为此,针对目前尚未有研究将参数距平、变化率与机器学习算法结合用于定性降雨预报的情况,基于随机森林(random forest,RF),本文提出将参数的变化率和距平作为模型输入,以替代传统的PWV和气象参数,旨在深入捕捉PWV和气象参数内在信息对降雨事件的影响,并改善模型的预报性能。
1 研究区域与数据介绍本文的研究区域位于24.5°N—33.5°N、108°E—119°E,如图1所示,涵盖长江中游的湖北、湖南和江西3省。研究区域内包括大片丘陵山区,如罗霄山、武陵山、南岭、雪峰山等山脉,平原主要分布在长江、汉江、湘江和赣江附近。气候上,研究区域位于亚热带季风气候区,夏季炎热多雨,冬季温和少雨,四季分明,季风发达。
图1图1 定性降雨预报研究区域及站点分布
Fig.1 Qualitative rainfall forecast research area and station distribution
本文GNSS PWV由中国气象局提供[21],时间分辨率为1 h。GNSS观测数据通过GAMIT软件解算得到天顶静力学延迟(zenith total delay,ZTD)。ZTD由天顶静力学延迟(zenith hydrostatic delay,ZHD)和天顶湿延迟(zenith wet delay,ZWD)两部分构成,其中ZHD可通过Saastamoinen模型[22-23]计算。将ZHD从ZTD中剔除后,基于无量纲系数∏,ZWD被最终转化为PWV。通过探空站数据(数据来源及预处理方式参考文献[24—25])检验,本文GNSS PWV的偏差(bias)、标准差(standard deviation,STD)及均方根误差(root mean square error,RMSE)分别为-0.3、1.6及1.6 mm。
气象站数据同样来源于中国气象局,时间分辨率为1 h。本文采用2018年的数据建立模型。因气象站和GNSS站在地理位置上相互独立且不重合,因此,只有当两者之间的水平距离不超过3 km且高差在100 m以内时,才将这对测站视为并址站[26]。通过这种方法,能够有效地将PWV数据与气象参数及降雨量进行匹配。研究区域内共确定了186对并址站,如图1红点所示。
2 降雨事件与参数间的相关性分析降雨是多气象要素相互作用的复杂结果[27]。为了深入探讨降雨事件与PWV、气象参数等参数之间的相关性,本文以鄂西山区的HBZG站(110.965°E,30.835°N,高程232.828 m)为例进行分析,如图2所示,图2各横坐标小时累计的起始时刻为2018年1月1日0点,所选择的时段处于7月,合计72 h,图3的横轴与图2一致。降雨事件与PWV及气象参数之间存在明显的关联:降雨前,PWV呈现上升趋势,而降雨开始后则逐渐下降;气压随着雨量的增加逐渐增大,但在雨量减少时并未同步下降;温度在降雨前1~2 h内上升,降雨后则开始下降,并在雨量达到峰值时降至最低点;相对湿度则随着雨量的增加而上升,并在降雨结束后仍保持在较高水平。
图2图2 HBZG站降雨事件与PWV、气象参数之间的关系
Fig.2 Relationship between rainfall events, PWV and meteorological parameters at HBZG station
图3图3 HBZG站降雨事件与参数变化率之间的关系
Fig.3 Relationship between rainfall events and the rate of parameter change at HBZG station
HBZG站降雨事件与变化率之间的响应关系如图3所示,其中变化率由式(2)计算。降雨量与参数变化率间同样存在着明显关联:随着雨量的增加,PWV变化率也呈现出逐渐增加的趋势,并在雨量达到最大值时同步取得极大值,随后两者都同步减小,当降雨停止时,PWV变化率达到最小值;气压和相对湿度的变化率峰值几乎与雨量峰值同时出现;温度变化率与雨量呈现出相反的趋势,即在雨量达到峰值时,温度变化率取得最小值。
3 建模思路与试验方案3.1 建模思路精度指标的选择、样本比例的确定及变化率的获取均对模型构建具有重要影响,本文将分3部分阐述建模思路。
3.1.1 精度指标本文采用天气预报中常用的Ts评分、正确率POD、错报率FAR及漏报率MAR 4个指标评估降雨预报模型的性能,各指标定义如式(3)—式(6)所示,由于正确率和错报率定义式的分母不同,两者之和不一定为1
(3)
(4)
(5)
(6)
式中,FB表示预报降雨但实际无雨的次数;TC表示预报无雨但实际降雨的次数;TD表示预报和实际都降雨的次数。
3.1.2 样本比例当样本中包含多种类型的数据且这些类型的比例存在显著差异时,预报结果往往会偏向于数量占优势的类别[28-29]。如,现实中非降雨事件数量远多于降雨事件。以2018年的建模数据为例,降雨与未降雨事件的比例约为1∶10。为了克服这种数据不平衡的问题,本文采取在未降雨样本中进行随机抽样的方式,以确保降雨和未降雨两类样本的数量相等[18]。在建模之前,首先针对每个站点计算了PWV和气象参数的均值,以获取距平信息。然后,逐站逐月在未降雨事件中进行了随机采样,从而实现了降雨和未降雨两类事件样本数量的平衡,比例达到1∶1。这样的处理方式有助于提升模型的预报精度和稳定性。
3.1.3 参数变化率假设当前时刻为t,dRH、dT、dP和dPWV分别为相对湿度、温度、气压和PWV在单位时间(时刻t和t-1之间)内的增量,如图4所示,因此,相对于时刻t,dRH、dT、dP和dPWV为历史变化信息。在传统的建模过程中,通常以时刻t作为起始预报时刻,并结合时刻t和t-1之间的变化率来预报时刻t+1的状态。然而,如果将起报时刻从t移动到t-1,这些变化率将转变为未来已确定的信息,因为变化率相对于时刻t-1而言是未来信息。在这种情况下,如果起报时刻是t-1,变化率信息可以被视为对未来变化趋势的强约束。相对地,若以时刻t为基准,变化率则仅作为历史参考信息。
图4图4 参数变化与时刻间的关系
Fig.4 The relationship between parameter change and time
3.2 试验方案3.2.1 变化率方案假设当前时刻为t,根据对时刻t和t-1之间变化率Var的不同理解,本文提出了两种建模方案:①将Var视为相对时刻t的历史参考信息,起报时刻为t,预报时刻t+1的降雨状态;②将Var视为相对时刻t-1的未来约束,起报时刻为t-1,预报时刻t+1的降雨状态。
3.2.2 模型结构如前所述,PWV、气象参数和参数变化率均与降雨事件存在密切的关联。为了准确捕捉这些参数中潜在的变化信息,本文引入了参数距平Ano和变化率Var,并基于RF算法建立定性降雨预报模型,模型结构如图5所示。模型输入参数包括位置参数(经度lat、纬度lon、高程hgt)、时间参数(年积日DOY、日积时Hour)、PWV、距平和变化率,模型输出参数为下一历元的降雨概率。如果预报概率达到或超过设定的阈值,则预报为降雨,并将结果标记为1;若概率低于阈值,则预报为不降雨,结果标记为0。本文采用定性预报方式,即仅预测是否下雨,而非具体的降雨量。因此,在建模之前,需对样本进行二值化处理:将降雨事件赋值为1,表示降雨概率为100%;未降雨事件赋值为0,表示降雨概率为0。此外,本文中的PWV单位采用mm,经纬度单位采用角度制。
图5图5 基于RF算法的短临降雨预报模型
Fig.5 Short-term qualitative rainfall prediction model based on RF algorithm
3.2.3 模型参数方案为充分挖掘数据特点和探讨不同参数组合效果,共设置4个参数方案:A方案为仅利用PWV和气象参数;B方案在A方案的基础上增加PWV和气象参数的变化率;C方案在B方案的基础上增加PWV和气象参数的距平;D方案在C方案的基础上减去气象参数。
为了说明RF算法相对于传统BPNN算法的优势,本文基于BPNN算法建立了各种参数方案的对照试验[25],所有试验模型见表1。所有参数模型均包含公共参数为经度(lat)、纬度(lon)、高程(hgt)、年积日(DOY)和日积时(Hour),而模型的输出结果则是预报时刻的降雨概率。为了确保模型的稳定性和可靠性,本文采用了十倍交叉验证的方法。具体地,将样本随机分为均等的10份,每次不重复地选择其中9份建模,1份检验,该过程重复10次,便能确保每个样本都有机会被用于建模和验证,从而全面评估模型的性能。
表1定性预报试验模型
Tab.1
1Att+1BPNNBPNN_A_t2Btt+1BPNNBPNN_B_t3Ctt+1BPNNBPNN_C_t4Dtt+1BPNNBPNN_D_t5Bt-1t+1BPNNBPNN_B_t-16Ct-1t+1BPNNBPNN_C_t-17Dt-1t+1BPNNBPNN_D_t-18Att+1RFRF_A_t9Btt+1RFRF_B_t10Ctt+1RFRF_C_t11Dtt+1RFRF_D_t12Bt-1t+1RFRF_B_t-113Ct-1t+1RFRF_C_t-114Dt-1t+1RFRF_D_t-1新窗口打开| 下载CSV
3.2.4 模型超参数机器学习算法的超参数对模型精度具有重要影响,RF算法的超参数为决策树数量,而BPNN算法则为隐藏层神经元数目。对于基于RF算法的模型,对应的最优决策树数量见表2。而基于BPNN算法的模型,本文采用包括一个隐藏层的3层BPNN网络训练PWV和气象参数[25]。隐含层的神经元个数根据Chapman-Kolmogrov公式确定[30]
(7)
式中,Nin为输入层的神经元个数;Nhid为隐含层中神经元个数。
表2基于RF算法模型的最优超参数
Tab.2
RF_A_t75RF_B_t-180RF_B_t75RF_C_t-195RF_C_t95RF_D_t-185RF_D_t85新窗口打开| 下载CSV
3.2.5 预报降雨的阈值降雨判断阈值的选择对预测精度具有重要影响,本文模型的输出结果在0~1之间。以表1所示的BPNN_C_t模型为例,本文讨论了阈值的选择问题。如图6所示,BPNN_C_t模型的Ts评分随阈值变化而变化,其中Ts评分的最大值出现在阈值约为0.5的位置,其他模型也呈现出类似的趋势。因此,本文将0.5设定为各试验模型判断是否降雨的统一阈值。
图6图6 Ts评分与阈值之间的变化
Fig.6 Changes between Ts scores and thresholds
4 模型结果每种预报模型均独立进行了10次十倍交叉验证,以确保结果的稳定性和可靠性。各模型的预报性能指标见表3,其中每个指标值均为10次独立十倍交叉验证结果的平均值。由表3可知,无论是基于BPNN算法还是RF算法的模型,在整体上均展现出了良好的预报效果。
表3各模型预报性能指标
Tab.3
模型Ts正确率/(%)错报率/(%)漏报率/(%)BPNN_A_t0.7387.317.812.7BPNN_B_t0.7588.316.511.7BPNN_C_t0.7588.416.311.6BPNN_D_t0.7688.516.111.5BPNN_B_t-10.7588.416.811.6BPNN_C_t-10.7588.516.611.5BPNN_D_t-10.7688.716.311.3RF_A_t0.7789.015.511.1RF_B_t0.7789.315.410.7RF_C_t0.7789.315.210.7RF_D_t0.7789.615.110.4RF_B_t-10.7789.616.010.4RF_C_t-10.7789.615.810.4RF_D_t-10.7789.815.710.2新窗口打开| 下载CSV
表4展示了7个基于RF算法的预报模型与BPNN_A_t模型之间的性能指标差异。在相同的参数方案下,RF算法的表现均优于BPNN算法。同时,基于RF算法的7个预报模型性能均优于BPNN_A_t模型,表明RF算法可能比BPNN算法更适合定性降雨预报建模。如果只利用气象参数和PWV,RF_A_t模型相较于BPNN_A_t模型,其正确率提升了1.7%,错报率降低了2.3%。
表4模型预报性能指标差异
Tab.4
模型Ts变化正确率变化/(%)漏报率变化/(%)错报率变化/(%)RF_A_t0.031.7-2.3-1.7RF_B_t0.032.0-2.4-2.0RF_C_t0.042.0-2.6-2.0RF_D_t0.042.3-2.8-2.3RF_B_t-10.032.3-1.8-2.3RF_C_t-10.032.3-2.0-2.3RF_D_t-10.042.5-2.1-2.5新窗口打开| 下载CSV
4.1 以时刻t为起报时刻如果起报时刻为t,预报时刻为t+1,在气象参数和PWV的基础上进一步引入PWV和气象参数的变化率,RF_B_t模型的正确率提升了0.3%,Ts评分也有所增加。同时,该模型的错报率和漏报率也相应降低。这是因为参数的变化率反映了参数动态变化的信息,为模型提供了额外的约束条件,从而提高了预报的精度和稳定性。
RF_C_t模型在PWV、气象参数和参数变化率的基础上引入距平信息,正确率只提升了0.01%,错报率降低了0.2%,可见引入距平信息有益于降低错报率。距平信息通过剔除参数的平均值,能更好地捕捉参数的变化程度,并有助于揭示异常变化。值得注意的是,当仅依赖气象参数的距平信息和变化率进行建模(如RF_D_t模型),而排除其他气象参数时,正确率的改进幅度由2.0%提升至2.3%,错报率的下降幅度由2.6%提升至2.8%。这表明同时利用气象参数及其距平信息可能会导致信息冗余,从而削弱距平信息对气象参数变化的捕捉程度,降低模型的性能。
综上所述,在起报时刻为t,预报时刻为t+1的情况下,RF_D_t模型以PWV、变化率及距平信息作为输入参数,展现出了最高的正确率和Ts评分,同时保持了最低的漏报率和错报率。这一优良表现的原因在于,该参数设置有效地捕捉与降雨相关的参数信息,进而实现了最优的预报效果。这种参数配置不仅充分考虑了气象参数的动态变化,还通过引入距平信息进一步增强了模型的预测能力。
4.2 以时刻t-1为起报时刻在讨论起报时刻为t-1,预报时刻为t+1的情况时,本文采用了参数方案B、C和D来构建基于RF算法的预报模型。尽管起报时刻变为t-1,但参数变化率仍基于时刻t-1和时刻t之间的数据。因此,在起报时刻为t-1的背景下,变化率实际上成了一种未来且确定的约束信息。在建模过程中,本文从仅有PWV、气象参数和参数变化率的基础出发,先引入距平信息,然后剔除气象参数。伴随这些调整,模型的正确率和Ts评分逐渐提升,错报率和漏报率逐渐降低。
特别地,在起报时刻为t-1,预报时刻为t+1的3组降雨状态预报试验中,结合了PWV、距平信息和变化率的参数方案,RF_D_t-1模型表现出了最高的正确率。值得一提的是,这一正确率甚至超过了起报时刻为t,预报时刻为t+1的同类模型。这表明,将参数变化率视为确定的未来趋势,有助于提高时刻t+1的降雨预报概率。然而,这种趋势也导致了错报率的提高,因为更多的实际无雨情况被错误地预报为降雨。
5 讨论通过应用RF算法,并结合PWV、参数距平和变化率构建模型,能够获得比仅依赖PWV和气象参数的预报模型更佳的预报效果。为了更深入地评估预报性能,本文将从时间和空间两个维度出发,对典型参数方案的Ts评分、正确率、错报率和漏报率进行全面分析。分析将有助于更准确地评估模型在不同条件下的预报表现,并为未来的预报工作提供有价值的参考。
5.1 预报效果的时间分布本节按月统计了BPNN_A_t及7个基于RF算法模型预报结果的Ts评分、正确率、漏报率和错报率指标,如图7所示。图7中,红线表示相应指标的平均值,用以指示该指标的变化趋势。整体上,Ts评分和正确率在春夏两季相对较低,而秋冬两季相对较高;错报率和漏报率则相反。这种季节性差异为进一步优化预报模型提供了有价值的参考。
图7图7 按月统计的各模型预报结果指标
Fig.7 Indicators of forecast results of each model by month
值得注意的是,各模型的Ts评分和正确率在5月、7月和8月较低,错报率和漏报率较高。特别是BPNN算法,7月的漏报率接近30%,8月的错报率超过了20%。参照国家标准GB/T 28592—2012,如果12 h的累计降雨量超过30 mm即被定义为暴雨,但是本文所使用的降雨数据分辨率为1 h,为此本文将小时降雨量超过2.5 mm的降雨事件标记为暴雨事件。结合实际降水数据(图8),本文发现5月、7月和8月这3个月暴雨事件比例超过20%,而其他月份均低于这一比例。这表明,在非暴雨频发的月份,本文模型对降雨的预报性能相对较好;但在暴雨事件较多的月份,本文模型的预报性能则有所降低。
图8图8 各月暴雨所占比例及样本数量
Fig.8 Proportion and sample size of heavy rainfall in each month
虽然在暴雨频发的月份,本文模型的降雨预报性能有所降低,但是数据分析发现,在这些月份中,使用距平信息及变化率(参数方案D)建模,对降雨的预报效果改善程度相较于其他月份及参数方案更明显。以起报时刻t为例,本文进一步统计了5月、7月和8月基于RF算法,采用参数方案A和方案D的3个模型预报结果的总体Ts评分、正确率、错报率和漏报率,结果见表5。在暴雨较多的5月、7月和8月,参数方案D相较于方案A,正确率提高了1.7%,这一提升幅度明显高于表3中模型整体平均值的变化幅度0.6%。同时,在暴雨频发月份,错报率降低了1.5%,也高于模型平均变化幅度0.3%。这些结果表明,在降雨量变化幅度较大的情况下,通过捕捉气象参数的变化趋势,可以有效提升模型的预报性能。
表5降雨预报模型在5月、7月和8月的总体性能指标
Tab.5
模型Ts评分正确率/(%)错报率/(%)漏报率/(%)BPNN_A_t0.6678.018.422.0RF_A_t0.7081.817.118.2RF_D_t0.7283.615.616.5新窗口打开| 下载CSV
为进一步评估预报性能改善的可行性,本文单独使用5月、7月和8月的数据建模,并按照与前文相同的方式获取了预报效果评价指标,具体结果见表6。与表5相比,经过单独建模后,模型的Ts评分和正确率均有所提升,而错报率和漏报率则有所下降。尽管采用参数方案D在一定程度上改善了预报性能,但这种改善幅度在单独建模后相对减弱。
表6单独使用5月、7月和8月数据建模的降雨预报指标
Tab.6
BPNN_A_t0.7083.418.516.7RF_A_t0.7384.716.615.3RF_D_t0.7485.315.514.7新窗口打开| 下载CSV
5.2 预报效果的空间分布由于基于RF算法,利用PWV、气象参数距平及变化率为输入参数的参数方案D在整体上表现最好。本文以该方案为例,讨论预报模型性能指标的空间分布规律。以起报时间t为基准的RF_D_t模型预报指标空间分布如图9所示。观察发现,在江西鄱阳湖周边以及鄂东平原的部分测站,模型的Ts评分和预报正确率相对较高,误报率较低。相反,在湘南、湘西和鄂西等山区的部分测站,模型的Ts评分和正确率较低,误报率较高。综上所述,平原地区的测站普遍具有较高的Ts评分,而山区测站的评分则相对较低。
图9图9 基于RF算法结合PWV、距平信息及变化率的模型预报性能指标空间分布
Fig.9 Spatial distribution of model prediction performance indexes based on RF algorithm combined with PWV, anomaly information and change rate
起报时刻t-1的RF_D_t-1模型预报指标空间分布如图10所示。与图9相比,该模型的正确率有了进一步的提升,然而在湖南西部山区以及湘赣交界罗霄山脉附近,一些站点的正确率相对较低。此外,图10(c)所展示的误报率整体上高于图9(c)所显示的误报率,这表明在t-1时刻的预报中,误报情况相对较为严重。
图10图10 基于RF算法结合PWV、距平信息及变化率的模型预报性能指标空间分布
Fig.10 Spatial distribution of model prediction performance indexes based on RF algorithm combined with PWV, anomaly information and change rate
6 结论伴随GNSS数据处理技术的进步及其衍生水汽产品精度的提高,GNSS PWV的降雨预报技术的潜力也愈受关注。相较于雷达回波信号易受地形遮挡导致数据缺失,以及数值天气预报模型在运行初期存在的震荡时间和较高的计算资源消耗等问题,本文基于GNSS PWV建立的降雨预报模型提供了一种地形影响小、准确且实时快速的预报模型。这种模型不仅能作为现有气象学预报模型的有效补充,还进一步拓宽GNSS技术的应用场景。而现有基于BPNN算法的定性降雨预报模型主要依赖于PWV和气象参数,但未考虑参数的变化对降雨事件的影响。为了弥补这一不足,本文提出以GNSS PWV和气象参数的距平及变化率作为模型的输入参数,并鉴于决策树算法在处理异质类数据时的出色表现,选择RF为基本建模算法。在模型输入参数方面,设计了4种方案,以考察不同方案的模型预报性能,分别为:A方案仅利用PWV和气象参数;B方案为A方案加上PWV及气象参数变化率;C方案为B方案加上PWV及气象参数距平;D方案为C方案减去气象参数。此外,本文还探讨了不同起报时间对模型性能的影响,将起报时间分别设为时刻t和时刻t-1,以评估模型在预测t+1时刻降雨事件的性能。
长江中游的湖北、湖南和江西3省的定性降雨预报结果分析表明,与只考虑PWV和气象参数的BPNN算法模型相比,本文模型性能更优,且采用D方案的性能最优。当起报时间为t时,与基于BPNN算法的模型相比,最优模型的预报正确率从87.3%提升至89.6%,而错报率从17.8%降低至15.1%。需要注意的是,本文模型只关注是否下雨,而非具体的降雨量级。因此,它并不能预报暴雨或其他类型的降雨事件是否发生。然而,试验结果显示,在暴雨频发的月份,虽然模型的预报性能有所降低,但使用距平信息及变化率的参数方案对模型预报性能的改善尤为明显。
本文也对比了将起报时间设为时刻t和时刻t-1时,模型对t+1时刻降雨状态的预报效果。结果显示,虽然将起报时间设为t-1时预报正确率有所提高,但错报率也相应上升。这是因为,对于时刻t而言,参数变化率体现的是历史信息,而对于时刻t-1,参数变化率则带有未来约束的性质。过强的未来约束使得模型预报降雨的概率增大,从而导致了错报率的上升。因此,在追求更稳定的预报效果和更低的错报率时,建议将预报时刻设定为t。此外,本文旨在利用有限的观测数据构建适用于区域降雨定性预报的模型,以预测任意位置的降雨状态。在模型参数设置中,本文未考虑年变化因素,且仅采用2018年的数据进行试验。如需预测其他年份的降雨状态,只需将相应年份的数据输入模型进行重新训练即可。
来源:测绘学报