• CN 62-1175/P
  • ISSN 1006-7639
  • 双月刊
  • 中国科技核心期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中文科技期刊数据库收录期刊

干旱气象, 2023, 41(5): 792-801 DOI: 10.11755/j.issn.1006-7639(2023)-05-0792

技术报告

三种气温插补方法在中国西南地区的应用分析

盖长松,1, 曹丽娟,2, 阳园燕1,3

1.中国气象局气候资源经济转化重点开放实验室,重庆市气象信息与技术保障中心,重庆 401147

2.国家气象信息中心,北京 100081

3.重庆市气象科学研究所,重庆 401147

The application of three interpolation methods to temperature in southwestern China

GAI Changsong,1, CAO Lijuan,2, YANG Yuanyan1,3

1. CMA Key Open Laboratory of Transforming Climate Resources to Economy, Chongqing Meteorological Information and Technology Support Centre, Chongqing 401147, China

2. National Meteorological Information Centre, Beijing 100081, China

3. Chongqing Institute of Meteorological Sciences, Chongqing 401147, China

通讯作者: 曹丽娟(1980—),女,正高级工程师,主要从事气候资料分析与气候变化研究。E-mail:caolj@cma.gov.cn

责任编辑: 蔡迪花;校对:王涓力

收稿日期: 2022-10-25   修回日期: 2023-05-25  

基金资助: 重庆市气象部门业务技术攻关项目“基于融合实况产品与机器学习的温/湿度要素质量控制与数据插补技术研究”(YWJSGG-202209)
中国气象局创新发展专项“全球关键气候要素长序列数据产品研制”(CXFZ2023J049)

Received: 2022-10-25   Revised: 2023-05-25  

作者简介 About authors

盖长松(1977—),男,高级工程师,主要从事气象观测数据质量控制研究。E-mail:gai_cs@163.com

摘要

观测数据的插补是提升气象数据完整性、恢复缺失数据真实性的重要手段。本文采用标准序列、空间回归和随机森林3种插补方法,对中国西南地区5个主要气候区地面气象观测站日平均气温序列数据以及犍为和北碚2个百年站月平均气温序列数据进行插补试验,并选用平均绝对误差、均方根误差以及插补值与观测值偏差分别在±0.8 ℃和±0.5 ℃区间的样本占比(P0.8P0.5)等4项指标对插补结果进行评估。结果表明:3种方法对中国西南地区5个气候区站点气温日均值与2个百年站气温月均值插补效果较好,且空间回归方法的插补精度高、适用性最好,在5个气候区的插补精度都高于其他两种方法,在地形较为平坦的四川盆地P0.8约0.90,在地形最为崎岖的川西南滇北山地P0.8也在0.60以上,地形对气温插补精度影响明显。选取最优参考站数可有效降低插补误差,2个百年站95%以上的月平均气温样本插补误差可控制在±0.5 ℃以内。

关键词: 标准序列; 空间回归; 随机森林; 气温数据插补; 中国西南地区; 百年站

Abstract

The interpolation of meteorological observation data is an important technique to improve data integrity and recover authenticity of missing values. The applicability analysis of three interpolation methods namely standardized series, spatial regression and random forest to daily mean temperature series in five major climatic divisions and monthly mean temperature series at two centennial stations in Qianwei and Beibei is carried out in order to improve the accuracy of temperature interpolation in southwestern China, and four test indicators including mean absolute error, root mean square error and the proportion of samples (P0.8 and P0.5) with the bias between the interpolation value and the observation within ±0.8 ℃ and ±0.5 ℃ are used to evaluate. The results show that three interpolation methods are better in interpolating daily mean temperature in five climatic zones and monthly mean temperature at two centennial stations in southwestern China, among them the spatial regression method has the highest accuracy and the best applicability, and its interpolation accuracy is higher than those of other two methods in five climatic zones. The P0.8 test indicator of daily mean temperature interpolated by the spatial regression method reaches about 0.90 in Sichuan Basin with a relatively flat topography, and it reaches more than 0.60 in mountainous area in southwestern Sichuan and northern Yunnan with a most rugged topography, which indicates that the terrain has obvious influence on the accuracy of temperature interpolation. The optimal numbers of reference stations can effectively reduce interpolation errors, and the interpolation errors of more than 95% samples at centennial stations can be controlled within ±0.5 ℃.

Keywords: standardized series; spatial regression; random forest; temperature data interpolation; southwestern China; centennial station

PDF (8955KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

盖长松, 曹丽娟, 阳园燕. 三种气温插补方法在中国西南地区的应用分析[J]. 干旱气象, 2023, 41(5): 792-801 DOI:10.11755/j.issn.1006-7639(2023)-05-0792

GAI Changsong, CAO Lijuan, YANG Yuanyan. The application of three interpolation methods to temperature in southwestern China[J]. Arid Meteorology, 2023, 41(5): 792-801 DOI:10.11755/j.issn.1006-7639(2023)-05-0792

引言

全球变暖对天气气候系统产生重要影响,IPCC第6次评估报告指出,未来每0.5 ℃的升温都会干扰包括极端高温、降水等在内的极端天气气候事件发生频率与规模(严中伟等,2020;唐懿等,2022),特别是中国西南地区尤为明显(伍清等,2018;曾剑等,2022),而长时间序列的气温资料能够有效反映气候冷暖变化程度,是判断极端天气气候事件强度的重要指标(Cao et al.,2017;冯蜀青等;2019;金红梅等,2019)。同时,气温也是陆面过程模型、数值预报模式等的重要输入参量,高质量、高精度的长时间序列气温资料有利于模式模拟和预报水平的提升。因此,对气温观测数据进行插补、质量控制及偏差订正,提升数据完整性、质量及均一性,是气象观测系统发展的重点(吴国雄等,2014;廖捷和周自江,2018)。

针对气温序列数据插补订正的研究成果较多,通常历史长年代际的气温序列数据插补多依靠历史文献、冰芯和树木年轮等代用资料及统计方法(丁玲玲等,2013;郑景云等,2014;郑景云等,2015;刘炳涛等,2018;邓国富和李明启,2021)。余君等(2018)采用贝叶斯方法,对中国北疆地区8条树轮气温重建资料、器测资料与CMIP5(Coupled Model Intercomparison Project Phase 5)模式资料进行融合试验,发现该方法能够纠正先验分布及气候模拟数据的明显偏差。对于实际观测的气温数据多采用单站资料或多站资料联合方式,结合标准序列法(Degaetano et al., 1995;余予等,2012)、回归分析(王海军等,2008;杨青等,2009;陈鹏翔等,2014)、SVD(Singular Value Decomposition)迭代(张永领等,2006)、偏最小二乘法(李庆祥等,2008)、最优配对分段插补(黄蓉等,2014)等方法,建立气温插补订正模型,实现对日、月、年等时间尺度的气温序列插补。闫丽莉等(2019)采用多站联合方式,建立线性回归插补模型,对唐山逐小时气温观测序列进行插补重建,结果表明该方法重建序列误差在±0.8 ℃范围内的比例为80.3%,平均绝对误差为0.84 ℃。在百年站气温要素序列重建方面,基于传统统计方法与资料的同时,部分研究还引入了再分析资料(彭嘉栋等,2014;司鹏等,2017;肖晶晶等,2021;杜泽玉等,2021;司鹏等,2022)。刘蕾等(2022)基于本站气温观测资料,联合使用英国CRU(Climatic Research Unit)格点气温资料作为补充和对比,采用多元逐步回归模型,重建了芜湖站百年(1880—2020年)月平均气温序列,结果表明近140 a来芜湖春、夏、冬季增温显著,但近20 a增温有所停滞,存在40∼50 a和20∼30 a的变化周期。随着机器学习、深度学习等大数据技术的发展,该类技术也逐渐应用于气温序列数据插补中。郑欣彤等(2022)基于编码—解码结构的序列—序列深度学习结构(BiLSTM-I),利用同一区域较低时频的人工观测气温序列数据搭建插补模型,重建了野外小气象站30 min时间尺度的气温序列数据,并与BRTS-I和卡尔曼方法的重建结果相比较,发现BiLSTM-I方法在气温插补方面有良好的适用性。孟欣宁等(2020)应用随机森林模型整合中亚地区65个气象站逐日最高气温数据和ERA-Interim再分析资料以及经纬度、海拔数据,构建插补方案,补全了气象站观测缺失值,并插值得到中亚1979—2016年逐日最高气温格点数据集(空间分辨率为0.75°×0.75°)。

上述研究大多针对单站或区域内气温资料开展的单一统计学或机器学习插补方法的应用,缺乏同一区域内上述多类插补方法的对比研究,同时也较少考虑地形地貌对插补方法的影响。鉴于此,本文基于中国西南地区气象站点逐日及逐月平均气温数据,综合台站及其所处区域的高程、坡度坡向、地表覆盖类型、地形起伏度和气候区等信息,开展空间回归、标准序列法与随机森林等3种插补方法在西南地区的适用性分析,以期为该区域长序列、高质量基础数据产品研制提供科学支撑。

1 数据与方法

1.1 数据

选取1970—2020年川、渝、滇、黔4省(市)日平均气温数据,数据来源于中国地面气象站均一化气温日值数据集,经过内部一致性、气候界限值、时间一致性检查等数据质量控制以及序列均一化检验与订正(Cao et al., 2016)。百年站气温数据来自中国近百年均一化气温数据集(Cao et al., 2017)。观测站点的坡度、坡向来自ASTER-GDEM V3数据集,本文将坡度(S)分为5级:S≤2°为1级,2°<S≤6°为2级,6°<S≤15°为3级,15°<S≤25°为4级,S>25°为5级。地形起伏度来自中国地形起伏度公里网格数据集(https://geodoi.ac.cn/WebCn/doi.aspx?Id=887)。地表覆盖类型来自全球地表覆盖遥感制图数据集(GlobeLand30 V2020, http://www.webmap.cn/mapDataAction.do?method=globalLandCover),地表覆盖包括耕地、林地、草地、灌木地、湿地、水体、苔原、人造地表、裸地、冰川和永久积雪10种类型,空间分辨率30 m。

1.2 研究区域

中国西南地区包括川、渝、滇、黔四省(市),该地区地形地貌复杂、气候类型丰富,分布着川藏高山峡谷区、云贵高原、四川盆地、湘鄂西山区、秦巴山区等,自西北向东南依次为亚寒带、温带、中亚热带及南亚热带湿润和半湿润区,气候区划(郑景云等,2010)及气象站点分布如图1所示。从图1看出,四川盆地及其周边气候区内气象站点分布最密,云贵高原及其周边次之,而川西北高原、横断山脉等地区气候区内气象站点分布最为稀疏。本文研究范围主要为气象站点分布较为密集的川西南滇北山地中亚热带湿润区(VATb-c,简称“川西南滇北山地”)、滇西山地滇中高原中亚热带湿润区(VATc-d,简称“滇西山地滇中高原”)、贵州高原山地中亚热带湿润区(VATd-e,简称“贵州高原山地”)、四川盆地中亚热带湿润区(VATe-f,简称“四川盆地”)和湘鄂西山地中亚热带湿润区(VATf,简称“湘鄂西山地”)等5个区域。西南地区省(市)行政边界基于国家自然资源部标准地图服务网下载的审图号为GS(2023)2767号的标准地图制作,底图无修改。

图1

图1   中国西南地区气候分区(郑景云等,2010)与气象站点分布

Fig.1   The climatic divisions (Zheng et al., 2010) and distribution of meteorological observation stations in southwestern China


首先,以研究区域内某一气象观测站为目标站,以100 km为半径,其内所有观测站初步设定为该目标站的参考站;然后,将海拔高度纳入到参考站的筛选条件中,当目标站海拔高度小于(大于)1 500 m时,选定的参考站与目标站的海拔高差需小于350 m(500 m)。按照此原则,上述5个气候区内目标站与参考站分布情况见表1

表1   5个气候区内目标站与参考站数量

Tab.1  The numbers of target and reference stations in five climatic divisions

气候区目标站
数量
参考站数量
最大值最小值中位数
川西南滇北山地21924
滇西山地滇中高原551527
贵州高原山地5616210
四川盆地10428416
湘鄂西山地271637

新窗口打开| 下载CSV


1.3 插补方法与评估指标

应用空间回归、标准序列法和随机森林3种插补方法,对中国西南地区5个气候区内观测站日平均气温与2个百年站月平均气温进行插补试验,并对插补结果进行检验评估。

(1)空间回归插补方法

该方法基于Hubbard等(2007)的空间回归质量控制算法,围绕目标站与参考站的均方根误差序列建立的一种插补方案。其步骤:首先,对参考站与目标站的观测要素进行相关分析,剔除未通过α=0.05显著性检验且相关系数小于0.5的参考站;其次,建立目标站与参考站观测要素的回归方程,并计算构建参考站的均方根误差序列;最后,计算基于加权的目标站观测要素估计值。计算公式如下:

x^j=ai+bixij(i=1,2,,n)
ei=1m-k-1j=1mx^j-xj2
x^j'=i=1nx^j2ei-2/i=1nei-2

式中:i为参考站序号;n为参考站数量;j为日期序号;m为日数;xij为第i参考站第j日平均气温观测值;x^jxj分别为目标站第j日平均气温估计值与观测值;aibi是第i参考站的回归系数;ei为第i参考站平均气温的均方根误差;k为回归方程的阶数,本文取值为1;x^j'是基于加权(参考站)的目标站第j日平均气温估计值。

(2)标准序列插补方法

该方法是基于目标站和参考站观测要素数据的多年均值序列与标准差序列建立的插补方法,计算公式如下:

zj=xij-x¯ijsij(i=1,2,,n)
z¯j=1ni=1nzij
xj=z¯jsj+x¯j

式中:zjz¯j分别是所有参考站第j日观测的平均气温标准序列及其均值;i为参考站序号;n为参考站数量;xijx¯ijsij分别是第i参考站第j日观测的平均气温及多年平均值、标准差;xjx¯jsj分别是目标站第j日观测的平均气温、多年平均值和标准差。

(3)随机森林插补方法

该方法是基于机器学习采用Scikit-Learn建立的一种插补方法。其中,随机森林模拟器决策树数量为100,迭代深度为5,以均方误差(Mean Squared Error,MSE)值作为节点分割指标。在特征值设定上,除观测值信息外,还纳入了参考站经纬度、地表覆盖类型和坡度坡向以及观测日期等信息。计算流程:依据前面空间回归插补方法中已得到的目标站及其对应的参考站序列,以逐站增加的方式建立多个不同特征值序列,如若该目标站有n个参考站,则对应分别建立n组特征值序列;对由每一组特征值序列构成的数据集按照3∶7的比例分成训练集和测试集,其中训练集数据输入随机森林回归器进行训练并生成回归器模型,再将测试集数据输入该模型,以生成插补计算结果,即可获得不同参考站组合条件下随机森林插补结果。具体流程如图2所示。

图2

图2   随机森林插补方案流程图

Fig.2   The flowchart of random forest interpolation scheme


采用平均绝对误差(Mean Absolute Error,MAE)、均方根误差(Root Mean Squared Error, RMSE)(黄嘉佑,2004)以及误差位于±0.5 ℃和±0.8 ℃区间的样本数与总样本数的比值(分别记为P0.5P0.8)作为评估指标(插补精度),对上述3种方法插补结果进行精度检验。

2 三种气温插补结果对比分析

图3是中国西南地区5个气候区日平均气温3种插补方法P0.5P0.8检验指标与参考站数量的关系。可以看出,5个气候区3种插补方法的P0.5P0.8变化具有一致性,起初均随参考站数量增加迅速增大,当参考站为5~8个时拟合结果较好,之后变化较为平缓,表明参考站数的增加有助于提高插补精度,整体上最优参考站数为7。从P0.8指标变化曲线来看,3种方法在四川盆地的日平均气温插补精度基本在0.90左右,远高于其他区域,贵州高原山地、湘鄂西山地和滇西山地滇中高原插补精度依次降低(0.70~0.80),而川西南滇北山地插补精度最低(0.60~0.70)。对比发现,各气候区3种方法的日平均气温插补精度P0.5均小于P0.8。其中,四川盆地空间回归和标准序列方法的插补精度P0.5最高,基本都在0.70以上,而随机森林方法的P0.5为0.45~0.70;贵州高原山地和湘鄂西山地3种方法的插补精度P0.5都为0.50~0.70,而滇西山地滇中高原和川西南滇北山地最小为0.40~0.60。3种插补方法对比来看,空间回归方法的插补精度在5个气候区基本都是最高,尤其在贵州高原山地和湘鄂西山地。

图3

图3   1970—2020年中国西南地区5个气候区日平均气温3种方法插补精度与参考站数量的关系

(a)滇西山地滇中高原,(b)贵州高原山地,(c)四川盆地,(d)湘鄂西山地,(e)川西南滇北山地

Fig.3   The relation between the accuracy of daily mean temperature interpolated by three methods and numbers of reference stations in five climatic divisions in southwestern China from 1970 to 2020

(a) western Yunnan mountains and central Yunnan plateau, (b) mountainous region of Guizhou plateau, (c) Sichuan Basin, (d) mountainous region of western Hunan and western Hubei, (e) mountainous region of southwestern Sichuan and northern Yunnan


表2是以7为最优参考站数条件下西南地区5个气候区3种气温插补方法的MAE和RMSE。总体来看,随机森林方法插补的气温MAE和RMSE均最小,分别为0.15~0.26 ℃、0.35~0.62 ℃,标准序列方法插补误差最大,且两种误差具有同步性;川西南滇北山地气温插补误差最大,其次是滇西山地滇中高原,四川盆地最小。

表2   最优参考站数量条件下1970—2020年中国西南地区各气候区3种气温插补方法的MAE与RMSE

Tab.2  The MAE and RMSE of temperature with three interpolation methods under the optimal numbers of reference stations in five climatic divisions in southwestern China from 1970 to 2020 单位:℃

气候区MAERMSE
空间回归法标准序列法随机森林法空间回归法标准序列法随机森林法
川西南滇北山地0.750.930.261.081.260.62
滇西山地滇中
高原
0.630.650.210.820.850.50
贵州高原山地0.480.600.170.730.770.42
四川盆地0.370.410.150.490.530.35
湘鄂西山地0.520.600.180.690.770.43

新窗口打开| 下载CSV


3种方法的气温插补精度与下垫面有关,西南地区多山地高原,平坝、河谷、山岭纵横其间,地形起伏大。地形起伏度是表征下垫面地貌状况的重要指标(马士彬和安裕伦,2012)。经统计,5个气候区区域平均地形起伏度为0.90~3.13,站点平均起伏度为0.59~2.20,川西南滇北山地起伏度最大,其次是滇西山地滇中高原,四川盆地最小(表3),即盆地地势最为平坦,而川西南滇北山地地势最为崎岖。

表3   中国西南地区5个气候区站点及区域平均地形起伏度

Tab.3  The station and regional average relief in five climatic divisions in southwestern China

气候区站点平均地形起伏度区域平均地形起伏度
川西南滇北山地2.203.13
滇西山地滇中高原1.883.02
贵州高原山地1.061.33
四川盆地0.590.90
湘鄂西山地0.701.43

新窗口打开| 下载CSV


这一地貌分布状况也可以从坡度变化看出,四川盆地、湘鄂西山地、贵州高原山地坡度大部分在3级以下(S≤15°),而川西南滇北山地、滇西山地滇中高原坡度大部分在4级以下(S≤25°)。其中,四川盆地54%的格点坡度为1级(S≤2°),占比最大,其次为2级(2°<S≤6°),占比为27%;贵州高原山地和湘鄂西山地坡度大多为2级,占比分别为49%和43%,前者其次为1级,占比32%,后者其次为3级(6°<S≤15°),占比33%;川西南滇北山地、滇西山地滇中高原近40%的格点坡度为3级,其次是2级,占比分别为31%、34%[图4(a)]。总体来看,地形起伏程度自四川盆地、贵州高原山地、湘鄂西山地、滇西山地滇中高原、川西南滇北山地逐渐增大。另外,从各气候区站点坡度分级情况[图4(b)]看出,各站点坡度均在3级以下,四川盆地、滇西山地滇中高原60%以上的测站坡度为1级,占比最高,而川西南滇北山地的站点坡度大多也为1级,占比41%;贵州高原山地站点坡度以1级和2级为主,2级占比略高于1级,而湘鄂西山地的站点坡度2级占比最大,其次为3级。

图4

图4   中国西南地区5个气候区区域(a)及站点(b)平均坡度等级占比

Fig.4   The proportion of regional (a) and station (b) average slope grades in five climatic divisions in southwestern China


上述分析可见,各气候区下垫面状况对3种方法日平均气温插补精度影响明显,下垫面越平坦,插补精度越高,四川盆地及其测站平均地形起伏度最小,坡度等级最低,其插补精度曲线变化较平缓,精度也最高;下垫面崎岖地区气温插补精度曲线变化较大,插补精度有所下降,如川西南滇北山地和滇西山地滇中高原,2个气候区平均地形起伏度都在3.00以上,且坡度在3级以上的占比约50%,但站点平均起伏度在2级以上的占比前者(59%)远高于后者(40%),因而气温插补精度曲线的波动前者比后者明显,前者插补精度相对更低;湘鄂西山地与贵州高原山地的区域平均地形起伏度相似,站点平均地形起伏度前者略低于后者,但前者区域平均坡度在3级以上的占比(36%)远大于后者(19%),且站点平均坡度为3级的占比前者(32%)也远高于后者(10%),故湘鄂西山地气温插补精度曲线相对贵州高原山地有一定的波动。

此外,还统计了5个气候区及其站点下垫面地表覆盖情况(图5),发现5个气候区下垫面都以耕地、林地、草地为主,而观测站大都修建于城镇,故而所处的地表覆盖类型大部分为人造地表,表明西南地区观测站的地表覆盖状况对气温插补结果影响不明显。

图5

图5   中国西南地区5个气候区区域(a)及站点(b)地表覆盖类型占比

Fig.5   The proportion of regional (a) and station (b) land cover types in five climatic divisions in southwestern China


3 气温插补方法在百年气象站的应用

采用上述3种插补方法,对中国西南地区重庆市北碚和四川省犍为2个百年站的历史月平均气温数据进行插补试验,其中以各站为中心100 km内与目标站高度差小于300 m的其他百年站作为参考站。

图6是基于空间回归和标准序列2种方法插补的犍为和北碚站月平均气温P0.5P0.8检验指标与参考站数量的关系。整体来看,2种方法的月平均气温插补精度随参考站数增加都保持着较高精度,P0.5P0.8值皆在0.90以上,但2站随参考站数增加变化不一致,当参考站数为5时,2种方法插补精度相对最高。因此,以5作为最优参考站数,则该条件下北碚站空间回归和标准序列方法插补的月平均气温RMSE(MAE)分别为0.211(0.149)、0.223(0.171),犍为站分别为0.187(0.130)、0.225(0.159),误差较小,2种方法具有较好的插补效果。

图6

图6   犍为(a)和北碚(b)站2种方法插补的月平均气温P0.5P0.8检验指标与参考站数量的关系

Fig.6   The relation between P0.5P0.8 test indexes of monthly mean temperature with two interpolation methods and numbers of reference station at Qianwei (a) and Beibei (b) stations


依据上述最优参考站数(5个),将2站的经纬度、坡度坡向和地表覆盖信息作为特征值输入,在样本总量不变、训练集和测试集分割比例固定条件下进行4次随机森林插补试验,每次参与试验的样本随机。图7是犍为和北碚站基于随机森林方法的月平均气温插补值与观测差值随样本数的变化,发现绝大部分样本气温插补值与观测的差值在±0.5 ℃以内,犍为和北碚站月平均气温插补的RMSE(MAE)分别为0.147(0.061)、0.142(0.060),P0.8P0.5)分别为0.98(0.95)、0.99(0.95),误差小且位于±0.5 ℃和±0.8 ℃区间的样本数占比高,表明随机森林插补方法对于具有连续属性的气温序列数据具有较好的拟合能力。

图7

图7   随机森林方法插补的犍为和北碚站月平均气温与观测差值随样本数的变化

(a)第1次试验,(b)第2次试验,(c)第3次试验,(4)第4次试验

Fig.7   The variation of difference between monthly mean temperature interpolated by random forest method and observation with sample numbers at Qianwei and Beibei stations

(a) the first test, (b) the second test, (c) the third test, (d) the forth test


为进一步判断百年站气温序列数据中极值对随机森林插补方法的影响,分别将12、1月和7、8月作为出现极端低温和高温的月份(简称“极值月”),以4次插补试验中超出±0.5 ℃的数据作为极值,分别统计2站每次试验中极值出现于极值月的样本量及其占比(与极值总样本量的百分比),占比越大表明序列中的极值对插补方法的影响也越大。图8是随机森林方法4次插补试验的极值位于极值月的样本量占比,发现犍为站70%以上的极值出现在极值月,而北碚站极值出现在极值月的样本量占比相对较低,平均在50%左右,表明气温观测序列中的极值对插补方法有一定影响,犍为站序列中的极值较北碚站影响更大,即随机森林插补方法不能完全拟合气温观测序列中的极值。这说明还需要进一步优化该方法中的特征值和超参数设置,其中本文超参数设置未进行迭代优化而是采用固定值,一定程度上影响了插补能力,而特征值选择上,虽然引入经纬度、坡度坡向、地表覆盖等地形地貌信息,但仍有其他相关要素有待挖掘。因此,通过上述两方面优化,可以进一步提高随机森林插补方法精度和适用性。

图8

图8   随机森林方法4次月平均气温插补试验极值出现在极值月的样本量占比

Fig.8   The proportion of extreme temperature samples in extreme value months to all samples of extreme value in four interpolation tests with random forest method


4 结论

应用标准序列法、空间回归和随机森林3种方法,对中国西南地区5个主要气候区内观测站的日平均气温序列数据及北碚、犍为2个百年站的月平均气温序列数据进行插补试验,发现3种方法对西南地区5个气候区各站点气温日均值序列数据和百年站气温月均值序列数据插补精度较高,但地形因素的影响不容忽略,主要结论如下:

(1)3种方法对中国西南地区5个气候区日平均气温和2个百年站月平均气温的插补效果较好,整体上空间回归方法的插值精度最高、适用性最好,无论在地形相对平坦的四川盆地,还是在地形较为崎岖的川西南滇北山地,空间回归方法的插补精度相较其他两种方法高,日平均气温插补的P0.8在四川盆地约0.90,在川西南滇北山地在0.60以上。

(2)不同气候区日平均气温插补精度随参考站数增加变化特征虽有不同,但大都在5~8站时插补精度较高,最优参考站数可有效降低插补误差。下垫面状况对3种方法气温插补精度影响明显,下垫面越平坦,插补精度越高,地势较平坦的四川盆地插补精度远高于地势较为崎岖的滇西山地滇中高原、川西南滇北山地等区域。

(3)随机森林插补方法对于具有连续属性的气温序列数据具有较好的拟合能力,绝大部分样本的气温插补值与观测差值在±0.5 ℃以内,但不能完全拟合序列中的极大值,未来还需要通过迭代优化等技术进一步优化该方法中的超参数设置,同时结合气温要素特点,补充更多的关联特征值。

参考文献

陈鹏翔, 江远安, 刘精, 2014.

新疆区域逐月缺测气温序列的插补及重建

[J]. 冰川冻土, 36(5): 1 237-1 244.

[本文引用: 1]

邓国富, 李明启, 2021.

树轮密度对气候的响应及重建研究进展

[J]. 地理科学进展, 40(2): 343-356.

DOI      [本文引用: 1]

树轮密度是重建过去气候变化的重要代用指标。过去几十年,国内外学者针对树轮密度开展了大量的研究工作,取得了丰硕的成果。论文收集了国内外有关树轮密度的研究文献,从树轮密度对气候变化的响应和气候重建等方面进行了概述。尽管树轮密度对气候变化的响应可能受到样点的地理位置、地形(如海拔、坡向等)、树种等因素的影响,但湿冷地区树轮晚材最大密度能较好地反映生长季或生长季末期温度变化;而干旱地区的早材平均密度能揭示生长季早期的降水变化。因此,目前大多数研究以重建生长季或生长季末期温度为主,也有重建降水量、海平面气压变化的案例。此外,重建方程的方差解释量存在空间和树种间的差异,但这些差异需要更多的研究工作加以验证。最长的重建序列来自于欧洲,长达2018 a;国内基于树轮密度重建的最长温度序列来自于西南地区,长达449 a。另外,树轮密度序列在对温度响应的分异性问题以及评估强火山喷发的降温效应方面还存在争议。其争议源于树轮密度与温度关系还受到其他环境变量与人为因素的影响,因此今后研究还需关注树轮密度与降水、光照等其他气候变量的关系,同时也要注重树种、海拔、实验方法等非气候因子的影响。

丁玲玲, 葛全胜, 郑景云, , 2013.

1736-2009年华南地区冬季年平均气温序列重建

[J]. 第四纪研究, 33(6): 1 191-1 198.

[本文引用: 1]

杜泽玉, 曹富强, 杨荣, 2021.

基于CRU资料的山西百年气温时空演变特征

[J]. 高原气象, 40(1): 123-132.

[本文引用: 1]

冯蜀青, 王海娥, 柳艳香, , 2019.

西北地区未来10 a气候变化趋势模拟预测研究

[J]. 干旱气象, 37(4): 557-564.

黄嘉佑, 2004. 气象统计分析与预报方法[M]. 3版. 北京: 气象出版社.

[本文引用: 1]

黄蓉, 胡泽勇, 关婷, , 2014.

藏北高原气温资料插补及其变化的初步分析

[J]. 高原气象, 33(3): 637-646.

DOI      [本文引用: 1]

通过定义最优配对分段插补法,以NewD66/D66、 D105、 Amdo和BJ为主站,D66/五道梁气象站(WDL)、 D110、 MS3478和MS3608为辅站,对主站缺失的地面气温资料进行插补,以获得完整的气温序列,并以此为基础分析主站近期气温变化。主站和辅站气温一致性分析结果表明,一年中每两个配对站的气温变化均有很好的一致性;温差表现为冬半年大、 夏半年小。插补效果分析表明,插补效果夏季比冬季好;插补效果D66站最好,D105站相对较差;插补误差近似服从正态分布,时间尺度越大插补结果的可用性越强;大幅降温、 降水、 较大风速以及较大风向转变是影响插补效果的主要因素。对主站完整气温序列分析表明,NewD66站的气温年较差最大(26℃),Amdo站最小(19℃);BJ站多年平均气温最高(-0.3℃),D105站最低(-5℃);BJ站处于季节冻土区,其余三站处于多年冻土区 ;近十几年主站年平均气温均呈波动上升趋势,BJ站和NewD66站升温明显,D105站和Amdo站升温缓慢。

金红梅, 颜鹏程, 柏庆顺, , 2019.

近70 a来中亚极端高温事件时空分布

[J]. 干旱气象, 37(4): 550-556.

[本文引用: 1]

李庆祥, 黄嘉佑, 鞠晓慧, 2008.

上海地区最高气温资料的恢复试验

[J]. 热带气象学报, 24(4): 349-353.

[本文引用: 1]

廖捷, 周自江, 2018.

全球常规气象观测资料质量控制研究进展与展望

[J]. 气象科技进展, 8(1): 56-63.

[本文引用: 1]

刘炳涛, 张健, 满志敏, 2018.

1724—2016年上海地区冬季平均气温重建与特征分析

[J]. 中国历史地理论丛, 33(4): 70-77.

[本文引用: 1]

刘蕾, 李鸾, 张丽, , 2022.

1880—2020年安徽芜湖气温长序列构建及年代际特征

[J]. 干旱气象, 40(5): 831-839.

DOI      [本文引用: 1]

完整的百年气温长序列是气候变化分析的基础,局地百年气温变化既有共性,也存在一定的差异。本文利用1880—1937年、1952—2020年安徽芜湖站气温观测资料和1901—2020年英国东英吉利大学气候研究中心(Climatic Research Unit,CRU)格点气温资料,首先对芜湖站气温观测资料进行检验和订正。在此基础上,采用多元逐步回归分析方法,构建芜湖站1880—2020年月平均气温序列,并统计分析气温的年代际变化特征。结果表明:差值和均一化订正进一步提高了芜湖站1880—1937年月平均气温观测数据质量。用1901—1937年、1953—2020年观测的月平均气温和1901—2020年CRU格点气温拟合的两套气温平均值插补,能够更好地反映芜湖站1938—1951年月平均气温的变化。近140 a来,芜湖春、夏、冬季增温显著,春季气温增幅最明显,而秋季增温趋势不显著;各季节均存在冷暖交替的年代际变化特征,但近20 a增温有所停滞,且存在40~50 a、20~30 a的周期变化。

马士彬, 安裕伦, 2012.

基于ASTER GDEM数据喀斯特区域地貌类型划分与分析

[J]. 地理科学, 32(3): 368-373.

DOI      [本文引用: 1]

以30 m分辨率ASTER GDEM数据为基础,通过GIS空间分析和非监督分类的方法进行地貌基本类型的自动划分。研究结果表明:① ASTERGDEM数据能够满足1:10万比例尺下喀斯特区域的地表形态表达; ② 以流域为单位提取地形因子符合地貌发育的基本规律,提取的地形因子能客观的反应地表真实形态; ③ 采用非监督分类法能够有效的实现1:10万比例尺下地貌基本形态的定量化、自动化分类。

孟欣宁, 焦瑞莉, 刘念, , 2020.

基于随机森林插值的中亚夏季极端高温变化特征

[J]. 干旱区研究, 37(4): 966-973.

[本文引用: 1]

彭嘉栋, 廖玉芳, 刘珺婷, , 2014.

洞庭湖区近百年气温序列构建及其变化特征

[J]. 气象与环境学报, 30(5): 62-68.

[本文引用: 1]

司鹏, 郭军, 赵煜飞, , 2022.

北京1841年以来均一化最高和最低气温日值序列的构建

[J]. 气象学报, 80(1): 136-152.

[本文引用: 1]

司鹏, 郝立生, 罗传军, , 2017.

河北保定气象站长序列气温资料缺测记录插补和非均一性订正

[J]. 气候变化研究进展, 13(1): 41-51.

[本文引用: 1]

唐懿, 蔡雯悦, 翟建青, , 2022.

2021年夏季中国气候异常特征及主要气象灾害

[J]. 干旱气象, 40(2): 179-186.

DOI      [本文引用: 1]

利用1961&#x02014;2021年中国区域2400余站地面气象观测资料,根据2019年中国气象局发布的《区域性重要过程监测和评价业务规定》,对2021年夏季中国气候基本概况及主要气象灾害进行全面分析。结果表明:(1)2021年夏季,平均气温较常年同期偏高,平均降水量较常年同期偏多;由于北方雨季开始时间偏早、强度偏强,南方雨季开始时间偏晚、强度偏弱,以及台风登陆个数偏少等原因,多雨区主要集中在北方。(2)2021年夏季,中国气候状况总体偏差,气象灾害形势复杂严峻,极端天气气候复合事件多发,以洪涝、高温、干旱灾害为主,且阶段性和区域性特征显著。其中,区域性暴雨过程较常年同期偏少4.9次,但极端性强,华北、黄淮、江汉等地相继遭受严重暴雨洪涝灾害;阶段性区域高温天气多发,区域性高温过程较常年同期偏多3.4次,主要影响黄淮、江南、华南、西北地区东部及内蒙古西部、新疆南部等地;南、北方气象干旱并发,区域性、阶段性、复合性明显,区域性干旱过程较常年同期偏多1.1次,华南、西北地区高温干旱复合发展。

王海军, 涂诗玉, 陈正洪, 2008.

日气温数据缺测的插补方法试验与误差分析

[J]. 气象, 34(7): 83-91.

[本文引用: 1]

吴国雄, 林海, 邹晓蕾, , 2014.

全球气候变化研究与科学数据

[J]. 地球科学进展, 29(1): 15-22.

[本文引用: 1]

伍清, 蒋兴文, 谢洁, 2018.

基于CMIP5资料的西南地区2020—2050年气温多模式集合预估

[J]. 干旱气象, 36(6): 971-978.

[本文引用: 1]

利用1961&mdash;2005年西南地区2 m气温的观测资料及同期CMIP5的11个全球气候系统模式的历史模拟数据,对比分析模式模拟、统计降尺度方法模拟、多模式集合模拟、统计降尺度和多模式集合相结合方法模拟的西南地区及不同分区气温误差。结果表明统计降尺度方法和多模式集合方法都能有效降低模拟误差,多模式集合的模拟误差相对较小。选取多模式集合方法预估RCP4.5中等偏低辐射强迫情景下2020&mdash;2050年西南地区2 m气温的变化,发现2020&mdash;2050年西南地区年平均及四季气温都呈显著上升趋势,冬季气温增幅相对较高,夏季相对较低;气温增幅较高的区域主要位于102&deg;E以西,较低的区域位于四川西南部和云南西北部交界处。

肖晶晶, 马浩, 张育慧, , 2021.

1905—2018年浙江地温序列构建及其变化特征

[J]. 干旱气象, 39(3): 386-393.

[本文引用: 1]

闫丽莉, 温少妍, 高文晶, , 2019.

整点气温缺测的插补方法研究及其初步应用

[J]. 震灾防御技术, 14(2): 446-455.

[本文引用: 1]

严中伟, 丁一汇, 翟盘茂, , 2020.

近百年中国气候变暖趋势之再评估

[J]. 气象学报, 78(3): 370-378.

[本文引用: 1]

杨青, 刘新春, 霍文, , 2009.

塔克拉玛干沙漠腹地1961—1998年逐月平均气温序列的重建

[J]. 气候变化研究进展, 5(2): 85-89.

[本文引用: 1]

余君, 李庆祥, 张同文, , 2018.

基于贝叶斯模型的器测、古气候重建与气候模拟数据的融合试验

[J]. 气象学报, 76(2): 304-314.

[本文引用: 1]

余予, 李俊, 任芝花, , 2012.

标准序列法在日平均气温缺测数据插补中的应用

[J]. 气象, 38(9): 1 135-1 139.

[本文引用: 1]

曾剑, 徐晴晗, 张宇, , 2022.

中国西南地区百年气温的时空演变特征

[J]. 成都信息工程大学学报, 37(4): 412-421.

[本文引用: 1]

张永领, 丁裕国, 高全洲, , 2006.

一种基于SVD的迭代方法及其用于气候资料场的插补试验

[J]. 大气科学, 30(3): 526-532.

[本文引用: 1]

郑景云, 葛全胜, 郝志新, , 2014.

历史文献中的气象记录与气候变化定量重建方法

[J]. 第四纪研究, 34(6):1186-1 196.

[本文引用: 1]

郑景云, 刘洋, 葛全胜, , 2015.

华中地区历史物候记录与1850-2008年的气温变化重建

[J]. 地理学报, 70(5): 696-704.

DOI      [本文引用: 1]

根据历史日记中的华中地区春季植物物候、清代档案中的湖南4地降雪日数记载和区内5个树轮宽度年表,以及植物物候期、雪日观测记录等代用资料;以器测的华中整个地区的逐年气温距平为校准序列,采用逐步回归方法,结合逐一剔除法验证和方差匹配技术,重建了1850-2008年华中地区年均气温变化序列。结果表明:① 自1850年以来,华中地区气温变化以年际至年代尺度波动为主要特征;但至1990年以后则迅速增暖,并超出了原有的年代际波动水平;而1920s中期至1940s中期的温暖尽管也持续了20年,但其温暖程度显著低于1990s-2000s。其间,最寒冷年代则分别出现在1860s、1890s及1950s,最寒冷的年份为1893年。② 华中地区1850年以来的气温年代际波动周期为10~20年和准35年,其中1920s以前主要为12~14年,但自1940s开始则转为18~20年以及准35年。

郑景云, 尹云鹤, 李炳元, 2010.

中国气候区划新方案

[J]. 地理学报, 65(1): 3-12.

[本文引用: 3]

郑欣彤, 边婷婷, 张德强, , 2022.

基于深度学习的温度观测数据长时间缺失值插补方法

[J]. 计算机系统应用, 31(4): 221-228.

[本文引用: 1]

CAO L J, YAN Z W, ZHAO P, et al, 2017.

Climatic warming in China during 1901-2015 based on an extended dataset of instrumental temperature records

[J]. Environmental Research Letters, 12(6), 064005. DOI: 10.1088/1748-9326/aa68e8

[本文引用: 2]

CAO L J, ZHU Y N, TANG G L, et al, 2016.

Climatic warming in China according to a homogenized dataset from 2419 stations

[J]. International Journal of Climatology, 36(13): 4 384-4 392.

[本文引用: 1]

DEGAETANO A T, EGGLESTON K L, KNAPP W W, 1995.

A method to estimate missing daily maximum and minimum temperature observations

[J]. Journal of Applied Meteorology, 34(2): 371-380.

DOI      URL     [本文引用: 1]

A method to estimate missing daily maximum and minimum temperatures is presented. Temperature estimates are based on departures from daily temperature normals at the three closest stations with similar observation times. Although applied to Cooperative Observer Network stations in the northeastern United States, the approach can be used with any network of stations possessing an adequate station density and period of record.

HUBBARD K G, GUTTMAN N B, YOU J S, 2007.

An improved QC process for temperature in the daily cooperative weather observations

[J]. Journal of Atmospheric and Oceanic Technology, 24(2): 206-213.

DOI      URL     [本文引用: 1]

TempVal is a spatial component of data quality assurance algorithms applied by the National Climatic Data Center (NCDC), and it has been used operationally for about 4 yr. A spatial regression test (SRT) approach was developed at the regional climate centers for climate data quality assurance and was found to be superior to currently used quality control (QC) procedures for the daily maximum and minimum air temperature. The performance of the spatial quality assessment procedures has been evaluated by assessing the rate with which seeded errors are identified. A complete dataset with seeded errors for the year 2003 for the contiguous United States was examined for both the maximum and minimum air temperature. The spatial regression quality assessment component (SRT), originating in the Automated Climate Information System (ACIS), and TempVal, originating in the NCDC database, were applied separately and evaluated through the ratio of identified seeded errors to the total number of seeds. The spatial regression test applied in the ACIS system was found to perform better in identifying the seeded errors. For all months, the relative frequency of correct identification of wrong data is 0.72 and 0.83 for TempVal and SRT, respectively. The goal of the comparison was to evaluate quality assurance techniques that could improve data quality assessment at the NCDC, and the results of the comparison led to the recommendation that the SRT be included in the NCDC quality assessment methodology.

/