基于机器学习的湖北省夏季干旱预测模型构建与检验

doi:10.11755/j.issn.1006-7639-2024-05-0661

基于机器学习的湖北省夏季干旱预测模型构建与检验

王雅君^,¹^,², 罗菊英¹, 程烈海^,³, 李伟⁴

1.湖北省恩施土家族苗族自治州气象局，湖北恩施 445000

2.暴雨监测预警湖北省重点实验室，湖北武汉 430205

3.山东电力工程咨询院有限公司，山东济南 250013

4.南京信息工程大学，气象灾害教育部重点实验室，气象灾害预报预警与评估协同创新中心，江苏南京 210044

Construction and validation of summer drought prediction model in Hubei Province based on machine learning algorithms

WANG Yajun^,¹^,², LUO Juying¹, CHENG Liehai^,³, LI Wei⁴

1. Enshi Tujia and Miao Autonomous Prefecture Meteorological Bureau of Hubei Province， Enshi 445000， Hubei， China

2. Hubei Key Laboratory for Heavy Rain Monitoring and Warning Research， Wuhan 430205， China

3. Shandong Electric Power Engineering Consulting Institute Company Limited， Jinan 250013， China

4. Nanjing University of Information Science and Technology， Key Laboratory of Meteorological Disaster of Ministry of Education， Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters， Nanjing 210044， China

通讯作者: 程烈海（1973—），男，硕士，高级工程师，主要从事风能太阳能等新能源气候预测。E-mail：chengliehai@sdepci.com。

责任编辑: 黄小燕；校对：邓祖琴

收稿日期: 2024-08-3 修回日期: 2024-09-15

基金资助:

湖北省气象局科研项目(2023Q15)
山东省工信厅课题(202350100877)

Received: 2024-08-3 Revised: 2024-09-15

作者简介 About authors

王雅君（1996—），女，硕士，助理工程师，主要从事季节尺度干旱预测和区域气候变化研究。E-mail：1843984032@qq.com。

摘要

为构建准确的干旱预测模型，选择具有物理意义的预测因子和采用高效的预测方法至关重要。与传统预测技术相比，机器学习算法因其高效性和可靠性，在气候预测中被广泛应用。本文基于1960—2022年湖北省70个国家气象站逐月气象要素数据，以及国家气候中心与美国国家海洋和大气管理局提供的大气环流和海温指数，采用标准化降水蒸散指数判断是否干旱作为目标变量，运用特征选择方法筛选出11个指数作为输入变量。在此基础上，分别使用分类回归树和随机森林两种机器学习算法，构建了湖北省夏季干旱预测模型。随机选取47 a数据作为训练集，并利用剩余16 a数据作为测试集，对预测结果进行检验。结果表明，分类回归树和随机森林模型对干旱是否发生的预测准确率分别为88%和81%。此外，两种算法建模时均将亚洲纬向环流指数列为最重要的变量，表明该指数在湖北省夏季干旱预测中具有关键作用。通过构建两种机器学习算法预测模型，为湖北省夏季干旱预测提供了客观有效的新思路，对湖北省防旱减灾具有重要意义。

关键词： 湖北省; 夏季; 机器学习; 干旱预测; 模型构建

Abstract

In order to construct an accurate drought prediction model, it is very important to select predictors with physical significance and adopt efficient prediction methods. Compared to the traditional prediction methods, more efficient and reliable machine learning algorithms have been more widely used in climate prediction. This study is based on the monthly meteorological element data of 70 national meteorological stations in Hubei Province from 1960 to 2022, as well as the atmospheric circulation and sea temperature indices provided by the National Climate Center and the National Oceanic and Atmospheric Administration (NOAA). The standardized precipitation evapotranspiration index was used to determine drought occurrence as the target variable, and 11 indices were selected as input variables using feature selection methods. On this basis, two machine learning algorithms, classification and regression tree (CART) and random forest (RF), were used to construct summer drought prediction models of Hubei Province. The 47 years data were randomly selected as the training set, while the remaining 16 years data were used as the test set to evaluate the prediction performance. The results show that the prediction accuracy of the CART and RF models for drought was 88% and 81%, respectively. Additionally, both algorithms identified the Asian zonal circulation index as the most important variable in their models, indicating that this index is crucial for predicting summer droughts in Hubei Province. By constructing these two machine learning algorithm prediction models, this study provides an objective and effective new approaches for summer drought prediction in Hubei Province, which will provide scientific information for drought prevention and mitigation in the region.

Keywords： Hubei Province; summer; machine learning; drought prediction; model building

PDF (2579KB) 元数据多维度评价相关文章导出 EndNote| Ris| Bibtex 收藏本文

本文引用格式

王雅君, 罗菊英, 程烈海, 李伟. 基于机器学习的湖北省夏季干旱预测模型构建与检验[J]. 干旱气象, 2024, 42(5): 661-670 DOI:10.11755/j.issn.1006-7639-2024-05-0661

WANG Yajun, LUO Juying, CHENG Liehai, LI Wei. Construction and validation of summer drought prediction model in Hubei Province based on machine learning algorithms[J]. Arid Meteorology, 2024, 42(5): 661-670 DOI:10.11755/j.issn.1006-7639-2024-05-0661

0 引言

随着经济社会快速发展，全球变暖背景下干旱频发给人类生产生活等各方面带来的损失越来越大（郑治斌和刘可群，2020；范进进等，2022；王莺等，2022）。干旱是一种水分短缺现象，叠加夏季高温天气影响，使得干旱不利影响进一步扩大（王劲松等，2012；张强等，2015；袁星等，2020）。为了更好地开展防灾减灾工作，提前预测夏季干旱成为亟需解决的问题。

干旱成因分析是预测干旱的关键，国内外学者已经进行了不少有关干旱物理机制方面的研究。干旱一般由降水异常偏少造成，而降水多少通常与海洋或陆面热力、动力异常引起的大气环流异常有关（袁星等，2020；张强等，2020）。研究表明，欧亚大陆与青藏高原热力异常可以改变海陆热力差异，影响季风的产生和强弱，进而决定中国夏季降水的空间格局（Ding et al.，2014；丁一汇等，2018）。热带印度洋东南部海温异常增暖加强哈得来环流，导致中国南方出现异常下沉运动，从而造成该地区夏季降水异常偏少（Huo and Jin，2016）。北大西洋多年代际振荡则通过激发遥相关波列影响东亚地区降水，其正位相将导致长江及其以南地区降水偏少（Si and Ding，2016）。不同纬度的大气环流系统本身及其相互作用也是引起降水变化的重要因素（张玲和智协飞，2010；张强等，2024）。例如，当西太平洋副热带高压面积偏大、强度偏强、位置偏西，其控制区内的异常下沉运动以及偏弱的水汽输送将导致高温干旱发生（王文等，2017；夏扬和徐海明，2017；李忆平等，2022）。当北方极涡强度偏弱、面积偏小时，北方冷空气势力偏弱，加上中纬度地区环流平直，使得冷空气无法与南方暖湿气流交汇产生降水，会造成降水偏少现象（王海燕等，2019；高琦和徐明，2021）。

为更好地建立干旱预测模型，除了选择合适的预测因子，高效的预测方法也至关重要。之前利用简单传统统计预测方法构建的干旱预测模型逐渐不能满足人们对干旱预测准确率的期望。例如基于多元线性回归方法建立的线性、对数型、幂函数型和指数型4种西南地区秋季干旱预测模型中，对数模型在验证期内准确率达75.00%，而其他3个模型均仅为62.50%（董亮等，2014）。当前，随着人工智能领域的兴起，机器学习算法快速发展，相比传统统计预测方法更具高效性和可靠性。机器学习算法中分类回归树算法解释性强，分类规则直观易懂，剪枝处理也可以有效避免过拟合（官雨洁等，2018；郑力嘉和宋冰，2023），同时随机森林算法作为一种基于决策树的集成方法，也具有很好的泛化能力（方匡南等，2011；黄海新等，2016）。当前已有学者利用机器学习算法在提高干旱预测准确率和预见期方面取得进展：如王伟等（2016）基于多项气候因子数据和分类回归树算法建立河南商丘站干旱预测模型，其预报准确率高达91.67%；吴晶等（2016）采用随机森林算法预测淮河流域气象站各月干旱等级，发现机器学习算法模型预测平均准确率明显高于气候系统预报；殷浩等（2021）结合全球气候模式预报与机器学习算法构建动力—统计预测模型，不仅能提升春季和夏季干旱预测技巧，也能延长华北、华中及华南地区干旱事件预见期。

湖北省大部属亚热带季风气候，降水充沛且梅雨明显，但由于降水存在季节分配不均和年际变率大等特点，导致湖北省干旱多发于夏季（邵末兰和向纯怡，2009；郑治斌和刘可群，2020）。为提高应对干旱灾害的能力，需要建立湖北省夏季干旱预测模型。研究表明机器学习算法在干旱预测方面有良好的应用前景（王伟等，2016；吴晶等，2016；殷浩等，2021）。然而，当前研究主要围绕其他地区展开，较少应用于湖北省夏季干旱预测中，并且不同地区的干旱预测模型存在差异。因此，本文通过分类回归树算法和随机森林算法分别建立湖北省夏季（6—8月）干旱预测模型，并对两种机器学习算法预测效果进行对比检验，以期为湖北干旱预测提供多样性的选择，揭示不同机器学习算法在同一区域的预测效果差异，从而优化预测模型的选择与应用。

1 资料与方法

1.1 资料

气象站点观测数据来源于湖北省气象局内网气象预报服务业务一体化平台，剔除时间序列不完整的站点数据后，选用湖北省70个国家气象站1960—2022年逐月平均温度、降水量等气象要素进行研究，该资料经过了严格的质量控制，具有很好的连续性和完整性。气候因子数据主要来自国家气候中心和美国国家海洋和大气管理局（National Oceanic and Atmospheric Administration，NOAA）。选取国家气候中心网站（http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php）1960—2022年88项大气环流指数和26项海温指数，以及NOAA网站（https://psl.noaa.gov/data/climateindices/list/）提供的北大西洋多年代际振荡（Atlantic Multidecadal Oscillation，AMO）、北大西洋涛动（North Atlantic Oscillation，NAO）、准两年振荡（Quasi-Biennial Oscillation，QBO）等多项指数进行研究。本文使用标准化降水蒸散指数（Standardized Precipitation Evapotranspiration Index，SPEI）来表征干旱，该指数对中国区域干旱监测具有较好的适用性（王文举等，2012；庄少伟等，2013；赵林等，2015；谢南茜等；2023）。由于本文聚焦于夏季（6—8月）的干旱预测，因此使用3个月尺度的标准化降水蒸散指数，可以较好地反映季节尺度的干旱情况。

1.2 方法

1.2.1 标准化降水蒸散指数

标准化降水蒸散指数（SPEI）综合考虑了降水和潜在蒸散对干旱的影响，同时具有多时间尺度的优点，适用于不同地区不同时间尺度下干旱监测和评估（赵林等，2015；张乐园等，2020；赵紫竹等，2023；杨英杰等，2024）。根据GB/T 20481—2017《气象干旱等级》（国家气候中心，2017）中基于SPEI的干旱划分标准（表1）可知，当SPEI>-0.5时，为无旱；当SPEI≤-0.5时，为干旱且分为轻、中、重、特旱等级；因此本文将SPEI=-0.5作为判断干旱是否发生的临界值。

表1 基于SPEI的干旱划分标准

Tab.1 The drought classification standard based on SPEI

SPEI	干旱等级	是否干旱
-0.5<SPEI	无旱	否
-1.0<SPEI≤-0.5	轻旱	是
-1.5<SPEI≤-1.0	中旱	是
-2.0<SPEI≤-1.5	重旱	是
SPEI≤-2.0	特旱	是

新窗口打开| 下载CSV

1.2.2 机器学习算法

近年来机器学习算法迅猛发展，分类回归树算法和随机森林算法也逐渐应用于干旱预测中（王伟等，2016；吴晶等，2016）。相比其他常见的机器学习算法（例如逻辑回归、神经网络等），这两种机器学习算法在预测湖北省夏季干旱上更为简单高效，不仅可以考虑干旱预测因子之间的非线性关系，也不用像神经网络算法需要通过大量数据和长时间训练才能得到干旱预测模型。当前已有研究基于分类回归树算法或者随机森林算法通过几十个样本成功构建干旱预测模型（王伟等，2016；董新宁等，2022）。因此，本文选择分类回归树算法和随机森林算法来预测湖北省夏季干旱是否发生。

1.2.2.1 分类回归树算法

分类回归树算法是一种适用于解决分类和回归问题的决策树算法，具有极强的可解释性且应用广泛，当目标变量是离散型时，分类回归树算法将生成分类决策树（赵萍等，2005）。其主要思想是用基尼指数（gini）来度量数据不纯度，并将其作为分类准则自上而下构建分类决策树，最终使样本分类的不确定性达到最小（Loh，2011）。具体计算如下：

假设样本集合D包含K个类别，其中样本属于第k（k=1，2，3，…，K）类的概率为P_k，则集合D的基尼指数gini（D）为：

（1）

g i n i (D) = 1 - \sum_{k = 1}^{K} P_{k}^{2}

在构建分类决策树过程中，依据特征变量A的第i个值对样本集合D进行分类，得到集合D₁和D₂，此时集合D基尼指数变为：

（2）

g i n i_{A_{i}} (D) = \frac{n_{1}}{n} g i n i (D_{1}) + \frac{n_{2}}{n} g i n i (D_{2})

式中：n₁、n₂、n分别为集合D₁、D₂、D的样本数量。

值得注意的是，当数据过度训练时，得到的决策树会十分复杂且庞大，极易导致过拟合，使得模型在训练集中有很好表现，而在从未见过的测试集中分类能力显著下降。为了防止过拟合，可以通过剪枝处理保留最重要的特征分类标准（郑力嘉和宋冰，2023）。

1.2.2.2 随机森林算法

随机森林算法是一种集成算法（Breiman，2011），该算法在决策树的基础上增加了自助采样样本和随机特征选择等步骤进而产生了多棵决策树，使得模型有效地避免了过拟合，不仅提高了模型的泛化能力还提高了预测准确性（方匡南等，2011）。该算法具体步骤如下：

首先通过从原始数据集S中有放回地自举抽样得到N个新的数据集（S₁，S₂，S₃，…，S_N），然后基于每个新的数据集分别建立决策树（h₁，h₂，h₃，…，h_N），其中每颗决策树的分裂节点是从对应的新数据集所含特征中随机选择产生，建立的多棵决策树构成一个随机森林，最后将多棵决策树预测结果以投票方式进行整合得到最终预测结果。

由于经过自举抽样得到的新数据集中会出现部分原始数据未被抽中的情况，这些未抽中的数据称为袋外（Out Of Bag，OOB）数据，可以用来估计决策树的泛化误差。随机森林中所有决策树OOB误差的平均值能很好地体现随机森林算法模型的泛化能力（吴晶等，2016）。

2 湖北省夏季干旱的时空演变特征和影响因子分析

2.1 时空演变特征

图1为1960—2022年湖北省夏季SPEI年际变化。可以看出，干旱指数变化率为0.05 （10 a）^-1，呈微弱上升趋势且年际变化较大。分析极端年份发现，1966年、1972年和2022年夏季湖北省发生了严重干旱事件，而1969年、1980年和2020年湖北省夏季偏湿。20世纪60年代至70年代、21世纪初湖北省夏季SPEI≤-0.5的年份远多于20世纪80年代至90年代末。统计发现1960—2022年湖北省夏季共发生干旱20 a，无旱43 a，其中1960—1979年有8 a干旱、1980—1999年有4 a干旱、2000—2022年有8 a干旱，表明1960—2022年湖北省夏季大致呈现“干旱—湿润—干旱”的变化特征。

图1

新窗口打开| 下载原图ZIP| 生成PPT

图1 1960—2022年湖北省夏季SPEI年际变化

（红色虚线为是否干旱的临界线）

Fig.1 The inter-annual variation of summer SPEI in Hubei Province from 1960 to 2022

（The red dashed line denotes the critical threshold of drought）

经验正交函数（Empirical Orthogonal Function，EOF）能把随时间变化的变量场分解为不随时间变化的空间函数和只依赖时间变化的时间函数，用于研究数据主要变化模态及时间变化规律（余兴湛等，2022）。本文利用EOF分解方法分析1960—2022年湖北省夏季SPEI的时空特征，得到前3个模态方差贡献率分别为55.9%、12.7%和5.5%，累积方差贡献率可达70%以上，能较好地表征湖北省夏季干旱的整体情况。EOF第1模态空间分布表明湖北省夏季干湿状态空间分布全区一致且均为负值[图2（a）]，对应时间系数整体呈“正—负—正”的变化[图2（d）]，即湖北省夏季呈现“干旱—湿润—干旱”的变化，这与之前结论一致；EOF第2空间模态中鄂东南为负值中心，鄂北岗地为正值中心，东南向西北整体呈现由负变正的变化趋势[图2（b）]，对应时间系数在1990年后有“负—正—负”的变化趋势[图2（e）]，即1990年后湖北省干旱多发于鄂北岗地一带；EOF第3空间模态中鄂中、鄂东北与鄂西北、鄂东南干旱变化情况相反[图2（c）]，对应时间系数多波动，未出现长时间持续正值或者负值的情况[图2（f）]。综合来看，湖北省干旱时空变化特征复杂，建立湖北省夏季干旱预测模型十分必要。

图2

新窗口打开| 下载原图ZIP| 生成PPT

图2 1960—2022年湖北省夏季SPEI的EOF分解的第1（a、d）、第2（b、e）和第3（c、f）模态空间分布（a、b、c）及其对应的时间系数（d、e、f）

Fig.2 The spatial distribution （a， b， c） and their corresponding time coefficients （d， e， f） of the first （a， d）， second （b， e）， and third （c， f） modes by EOF decomposition of the summer SPEI in Hubei Province from 1960 to 2022

2.2 影响因子的选择和分析

在特征工程中，数据和特征往往决定了机器学习的上限，选择好的特征变量（影响因子）对湖北省夏季干旱预测模型尤为重要。特征选择一般包含3类方法，分别是“过滤法”、“包裹法”、“嵌入法”，其中“过滤法”主要依据发散性或者相关性对各特征进行评分，进而通过设定阈值进行特征选择，从而得到与预测目标紧密相关的特征，例如方差分析选择和互信息选择；“包裹法”指从大量特征中搜索一个特征子集使得预测模型效果最优，例如递归特征消除法；“嵌入法”指根据模型中各特征重要性进行选择，例如基于L1范数选择、随机森林选择（Guyon and Elisseeff，2003）。本文根据方差分析、互信息、递归特征消除法、递归特征消除法和5折交叉验证、基于L1范数、随机森林特征选择方法得到了6个特征子集，然后筛选6个特征子集中出现5次及以上的特征作为预测模型输入变量。

结合以上多种特征选择方法，从国家气候中心和NOAA网站获取的大气环流和海温指数中筛选出11个与湖北省夏季干旱紧密相关的影响因子。由表2可知，夏季热带南大西洋海温指数、北大西洋副高北界位置指数、亚洲纬向环流指数、AMO指数与湖北省同期SPEI为正相关，即当上述指数为正异常时，SPEI增大，湖北省夏季偏湿；而亲潮区海温指数、西风漂流区海温指数、西太平洋副高脊线位置指数、北美副高脊线位置指数、亚洲区极涡面积指数、斯堪的纳维亚遥相关型指数和NAO与夏季SPEI呈负相关，即该指数为正异常时，SPEI减小，湖北省夏季偏干。例如，西太平洋副高脊线位置指数与湖北省夏季SPEI相关系数为-0.37，即当夏季西太平洋副高脊线异常偏北时，湖北省受西太平洋副高控制，有强烈的下沉逆温，使低层水汽难以成云致雨，易发生干旱（郝立生等，2022）。另外，西太平洋副高脊线位置指数、北大西洋副高北界位置指数、亚洲区极涡面积指数、斯堪的纳维亚遥相关型指数以及AMO指数与夏季SPEI的相关性均通过α=0.05的显著性检验，说明以上变量与湖北省夏季干旱显著相关。

表2 1960—2022年湖北省夏季干旱影响因子定义及其与同期SPEI的相关系数

Tab.2 The definition of summer drought impact factors and their correlation coefficient with SPEI in Hubei Province from 1960 to 2022

特征编号	影响因子	定义	相关系数
1	热带南大西洋海温指数	30°W—10°E、20°S—0°区域内海表温度距平的区域平均值	0.19
2	亲潮区海温指数	165°E—175°E、40°N—45°N区域内海表温度距平的区域平均值	-0.15
3	西风漂流区海温指数	160°E—160°W、35°N—45°N区域内海表温度距平的区域平均值	-0.09
4	西太平洋副高脊线位置指数	110°E—150°E、10°N—60°N区域内500 hPa高度场逐条经线上副热带高压中心位置所在纬度的平均值	-0.37**
5	北美副高脊线位置指数	110°W—60°W、10°N—60°N区域内500 hPa高度场逐条经线上副热带高压中心位置所在纬度的平均值	-0.24*
6	北大西洋副高北界位置指数	55°W—25°W、10°N—60°N区域内500 hPa高度场逐条经线上副热带高压北侧5 880 gpm等值线所在纬度的平均值	0.26**
7	亚洲区极涡面积指数	北半球60°E—150°E区域内500 hPa高度场极涡南界特征等高线以北所包围的扇形面积	-0.30**
8	亚洲纬向环流指数	60°E—150°E、45°N—65°N区域内500 hPa高度场以30个经度为间隔划分为3个区，计算平均纬向指数	0.07
9	斯堪的纳维亚遥相关型指数	0°—360°、20°N—90°N区域内，标准化500 hPa高度场经验正交函数分析所得的第九模态的时间系数	-0.32**
10	AMO	80°W—0°、0°—60°N区域内平均的海表面温度距平	0.26**
11	NAO	90°W—50°E、20°N—85°N大西洋地区海平面气压距平场的经验正交函数分解第一主成分	-0.24*

注：**、*分别表示相关系数通过α=0.05、α=0.1的显著性检验。

新窗口打开| 下载CSV

3 湖北省夏季干旱预测模型的构建与检验

建立湖北省夏季干旱预测模型，首先需要明确预测模型的输入变量和目标变量，将特征选择处理后的11个指数作为输入变量，是否干旱作为预测目标。其中输入变量建模时是实况数据，进行预测时可用数值模式预报数据。随机选取47 a数据作为训练集用于模型的构建，剩余16 a（1962、1963、1966、1977、1979、1980、1981、1983、1986、1987、1991、1995、1997、1999、2001、2013年）作为测试集用于评估模型效果，训练集与测试集中样本数量之比约为3：1。

3.1 基于分类回归树算法的湖北省夏季干旱预测模型构建与检验

利用网格搜索和5折交叉验证方法对分类回归树预测模型参数调优，得到最优参数组合：max_depth=7、criterion=“gini”、min_samples_leaf=2、min_samples_split=2，即最大深度为7、节点划分标准选择“gini”、叶子节点含有最少样本数为2、节点可分的最小样本数为2。基于该参数组合建立的决策树共包含14条分类规则集（图3）。决策树根节点从NAO指数开始，表示为当“NAO≤0.48”时，训练集47个样本（“samples=47”）中无旱和干旱样本分别为31个和16个（“value=[31,16]”），当前分类为无旱（“class=无旱”），此时gini=0.45，其他节点与该节点表述相同。对于每条分类规则集，从根节点依次进行条件判别直至叶节点，以最右侧两条分类规则为例：（1）当“NAO>0.48”时，继续判断当“亚洲纬向环流指数>8.58”时，最后预测该样本为无旱；（2）当“NAO>0.48”，且“亚洲纬向环流指数≤8.58”时，继续判断“亚洲区极涡面积指数≤16.43”是否成立，如果成立，需要继续进行条件判别；如果不成立，则预测该样本为干旱。其他规则集依此类推。

图3

新窗口打开| 下载原图ZIP| 生成PPT

图3 基于分类回归树算法的湖北省夏季干旱预测模型

Fig.3 Prediction model for summer drought in Hubei Province based on classification and regression tree algorithm

选用准确性作为评估模型预测效果的指标，发现基于分类回归树算法的湖北省夏季干旱预测模型在训练集和测试集上预报准确率分别为96%和88%。图4为该模型的混淆矩阵检验结果，可以看出训练集中实际无旱年份为31 a，其中正确预测30 a，仅错误预测1 a；实际干旱年份共16 a，预测错误1 a，正确15 a；测试集中实际无旱年份12 a，正确预测12 a，无预测错误年份；实际干旱年份共4 a，预测错误2 a，正确2 a。以上结果表明，基于分类回归树算法建立的预测模型对于湖北省夏季是否干旱有较好的预报能力，特别是对无旱事件。

图4

新窗口打开| 下载原图ZIP| 生成PPT

图4 分类回归树算法建模中训练集（a）和测试集（b）的混淆矩阵

Fig.4 The confusion matrix of training set （a） and test set （b） in classification and regression tree algorithm model

为进一步检验模型预测能力，表3列出测试集中分类回归树算法预测干旱情况与实况对比。可以看出，分类回归树预测模型正确预测出2001和2013年湖北省夏季干旱，而漏报了1966、1981年干旱，同时该模型对无旱事件具备很好的预测能力，成功预测出1962、1963、1977、1979、1980、1983、1986、1987、1991、1995、1997、1999年湖北省夏季无旱，且无一错报。值得注意的是，该模型对湖北省夏季干旱事件的预测存在一定不确定性。其中1966、1981、2001、2013年湖北省夏季分别发生重旱、轻旱、中旱、轻旱，可知该模型能够对轻旱和中旱事件有一定的预测能力，而对于极端干旱预测能力较差，这可能是因为模型训练过程中极端干旱样本数量太少导致模型对极端干旱事件训练不充分而造成。

表3 测试集中分类回归树算法和随机森林算法预测干旱情况与实况对比

Tab.3 Comparison of the actual values and predict drought based on classification and regression tree algorithm and random forest algorithm in the test set

年份	分类回归树算法预测	随机森林算法预测	实况
1962	无旱	无旱	无旱
1963	无旱	无旱	无旱
1966	无旱	无旱	干旱
1977	无旱	无旱	无旱
1979	无旱	无旱	无旱
1980	无旱	无旱	无旱
1981	无旱	无旱	干旱
1983	无旱	无旱	无旱
1986	无旱	无旱	无旱
1987	无旱	无旱	无旱
1991	无旱	无旱	无旱
1995	无旱	无旱	无旱
1997	无旱	无旱	无旱
1999	无旱	无旱	无旱
2001	干旱	无旱	干旱
2013	干旱	干旱	干旱

新窗口打开| 下载CSV

3.2 基于随机森林算法的湖北省夏季干旱预测模型构建与检验

随机森林是一种基于决策树的集成学习算法，在分类预测问题中表现出色，得到了广泛应用（吕红燕和冯倩，2019）。利用网格搜索和5折交叉验证方法对随机森林预测模型进行多次调参，得到最优参数组合：n_estimators=25、max_depth=8、min_samples_leaf=2、min_samples_split=5，即决策树个数为25、决策树最大深度为8、叶子节点含有最少样本数为2、节点可分的最小样本数为5。基于该参数组合建立的随机森林干旱预测模型在训练集和测试集上预报准确率分别为94%和81%，OOB平均准确率为79%。其中，在训练集中实际无旱年份为31 a，正确预测31 a，无错误预测年份；实际干旱年份共16 a，预测错误3 a，正确13 a。测试集中实际无旱年份12 a，均正确预测；实际干旱年份共4 a，预测错误3 a，正确1 a（图5）。与分类回归树预测模型相比，随机森林算法在相同训练集和测试集上预报准确率略低，主要表现在随机森林预测模型对干旱事件的预测能力低于分类回归树预测模型，但对于无旱事件两个机器学习算法预测模型均有较好的预测能力。

图5

新窗口打开| 下载原图ZIP| 生成PPT

图5 随机森林算法建模中训练集（a）和测试集（b）的混淆矩阵

Fig.5 The confusion matrix of training set （a） and test set （b） in random forest algorithm model

对比测试集中随机森林算法预测值与实况可知（表3），随机森林预测模型正确预测出2013年湖北省夏季干旱，而漏报了1966、1981和2001年干旱，表明该模型对湖北省夏季轻旱事件有一定的预报能力，但对中旱及以上干旱的预测能力有待提高。对于无旱事件，模型能正确预测出测试集中所有无旱年份且无一错报。随机森林预测模型对无旱事件的预测能力明显高于干旱事件。比较机器学习算法与业务发布预测整体水平（表4），受年份资料限制使用2011—2022年评估业务预测发布效果，期间业务发布准确率为66.7%；而分类回归树和随机森林算法预测1960—2022年准确率分别达93.7%和90.5%，较业务发布预测有明显提升。

表4 2011—2022年湖北省实况干旱与两种机器学习算法预测、业务发布预测对比

Tab.4 Comparison between the actual drought and the two machine learning algorithms prediction and operational prediction from 2011 to 2022

年份	分类回归树算法预测	随机森林算法预测	业务发布预测	实况
2011	无旱	无旱	无旱	无旱
2012	干旱	干旱	干旱	干旱
2013	干旱	干旱	干旱	干旱
2014	无旱	无旱	无旱	无旱
2015	无旱	无旱	无旱	无旱
2016	无旱	无旱	无旱	无旱
2017	无旱	无旱	无旱	无旱
2018	干旱	干旱	干旱	干旱
2019	干旱	无旱	无旱	干旱
2020	无旱	无旱	干旱	无旱
2021	无旱	无旱	干旱	无旱
2022	干旱	干旱	无旱	干旱

新窗口打开| 下载CSV

进一步探索基于分类回归树算法和随机森林算法的湖北省夏季干旱预测模型，图6为两个模型中各特征的重要性得分，按从大到小排序，分类回归树预测模型中依次是亚洲纬向环流指数、NAO、亲潮区海温指数、斯堪的纳维亚遥相关型指数、AMO、亚洲区极涡面积指数、西太平洋副高脊线位置指数、热带南大西洋海温指数，而西风漂流区海温指数、北美副高脊线位置指数和北大西洋副高北界位置指数得分不明显；随机森林算法中依次为亚洲纬向环流指数、亚洲区极涡面积指数、NAO、AMO、北美副高脊线位置指数、亲潮区海温指数、热带南大西洋海温指数、北大西洋副高北界位置指数、斯堪的纳维亚遥相关型指数、西风漂流区海温指数、西太平洋副高脊线位置指数。对比可知，两种机器学习算法预测模型中各特征重要性得分存在差异，但两种机器学习算法预测模型都考虑到亚洲纬向环流指数，且将其重要性得分均排在首位。亚洲纬向环流指数涉及60°E—150°E、45°N—65°N区域内500 hPa高度场的演变，该指数反映了高空槽脊的变化，而高空槽脊本身的变化及与其他天气系统的相互作用是业务工作中降水预报的重要参考，进而也对干旱影响很大。

图6

新窗口打开| 下载原图ZIP| 生成PPT

图6 分类回归树（a）和随机森林（b）预测模型中各特征的重要性得分

（特征编号对应表2中各影响因子）

Fig.6 Importance scores of features in the prediction model based on classification and regression tree （a） and random forest （b）

（The number of features corresponds to the influencing factors in table 2）

4 结论与讨论

本文选取与湖北省夏季干旱紧密相关的大气环流和海温指数作为输入变量，是否干旱为目标变量，基于分类回归树算法和随机森林算法分别建立湖北省夏季干旱预测模型，并对模型预测效果进行检验分析，得到以下主要结论。

1）1960—2022年湖北省夏季平均SPEI呈微弱上升趋势且年际变化较大。期间湖北省夏季发生干旱共20 a，43 a为无旱，干旱多发于20世纪60年代至70年代以及21世纪初。湖北省夏季干旱指数EOF分解前3个模态累积方差贡献率可达70%以上，其中第1模态占比55.9%，空间分布具有全区一致性，且湖北省干旱随时间呈现“干旱—湿润—干旱”的变化特征。

2）采用特征选择方法从多项大气环流和海温指数中筛选出11个作为输入变量，是否干旱作为目标变量，基于分类回归树算法构建湖北省夏季干旱预测模型得到14条分类规则集，其在训练集和测试集上预报准确率分别为96%和88%；随机森林预测模型准确率分别为94%（训练集）和81%（测试集）。这两个模型对湖北省夏季是否干旱都具有较好的预测能力，其中随机森林算法对干旱事件的预测能力略低于分类回归树算法，但其预测效果更稳定。

3）分类回归树和随机森林预测模型中各特征重要性的考量存在差异，但两个机器学习算法预测模型都将亚洲纬向环流指数的重要性排在首位，说明该指数对湖北省夏季干旱预测十分重要。

本研究基于分类回归树算法和随机森林算法从分类角度分别建立了湖北省夏季干旱预测模型，相比于业务发布预报准确率有所提升，可以为干旱预测提供技术支撑。其中分类回归树算法相比随机森林算法预测效果好，但一定程度上会受训练样本影响，具有不确定性；随机森林算法基于多个分类器进行干旱预测更具稳定性。湖北省夏季干旱以轻旱和中旱为主，高级别干旱样本数量有限，不利于预测模型的构建，造成模型对极端干旱事件预测能力弱。当前建立预测模型主要是定性预报出干旱是否发生，未解决湖北省夏季干旱强度以及空间分布的预测问题，未来可以基于深度学习算法或者集成算法从回归角度对干旱指数进行定量预测；通过对每个站点建立干旱预测模型，从而预测干旱空间分布，这将进一步提升气象服务水平，对防灾减灾具有积极意义。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

丁一汇, 司东, 柳艳菊, 等, 2018.

论东亚夏季风的特征、驱动力与年代际变化

[J]. 大气科学, 42(3): 533-558.