基于集成学习技术的青海高原地表温度反演研究
Research on land surface temperature retrieval over the Qinghai Plateau based on ensemble leaning technology
通讯作者: 陈国茜(1986—),女,广西北海人,硕士,正高级工程师,主要从事高寒生态遥感监测评估技术研发与业务应用。E-mail:71153087@qq.com。
收稿日期: 2024-08-29 修回日期: 2024-11-28
| 基金资助: |
|
Received: 2024-08-29 Revised: 2024-11-28
作者简介 About authors
辛萍萍(1993—),女,青海平安人,工程师,主要从事县级综合气象业务工作。E-mail:2287485706@qq.com。
地表温度作为地表物理过程的重要参数,在有云情况下,微波遥感是获取其信息的主要途径之一。本文基于FY-3D/MWRI亮温数据,采用随机森林(Random Forest,RF)、XGBoost、LightGBM等集成学习算法构建青海高原地表温度估算模型。通过深入分析亮温数据、地形要素等特征在不同模型中的贡献度,发现RF模型中亮温数据贡献度较高,XGBoost模型中亮温数据和地形要素均表现出较高贡献度,LightGBM模型则地形要素贡献度较高。3个模型的训练和测试精度均超过0.8,其中LightGBM与XGBoost模型的训练、测试精度差异较小。3个模型均能较好地刻画青海高原2个低温区和2个高温区的空间分布特征,其中XGBoost模型在干旱和洪涝过程下表现尤为突出,其估算结果与地表温度实测值的偏差最小。综合表明,XGBoost模型为青海高原地表温度估算的最优模型,其反演结果为该区域开展干旱与洪涝遥感实时监测提供技术支持。
关键词:
Land surface temperature is an important parameter of surface physical processes. Under cloudy conditions, microwave remote sensing is one of the main methods to obtain its information. Based on the FY-3D/MWRI brightness temperature data, this paper builds land surface temperature retrieval models over the Qinghai Plateau using ensemble learning algorithms such as Random Forest (RF), XGBoost, and LightGBM. Through in-depth analysis of the contribution of brightness temperature data, terrain factors, and other features in different models, it is found that the contribution of brightness temperature data is relatively high in the RF model, both brightness temperature data and terrain factors show high contributions in the XGBoost model, and the contribution of terrain factors is relatively high in the LightGBM model. The training and testing accuracies of the three models all exceed 0.8, among which the training and testing accuracies of the LightGBM and XGBoost models are relatively small. All three models can well depict the spatial distribution characteristics of the two low-temperature and two high-temperature areas over the Qinghai Plateau. Among them, the XGBoost model performs more prominently in drought and flood processes, and its estimation results have the smallest deviation from the measured Land surface temperature values. In conclusion, the XGBoost model is the optimal model for land surface temperature retrieval over the Qinghai Plateau, and its inversion results provide technical support for real-time remote sensing monitoring of drought and flood in this region.
Keywords:
本文引用格式
辛萍萍, 陈国茜, 周生蓉, 文生祥, 程俊清, 田媛.
XIN Pingping, CHEN Guoqian, ZHOU Shengrong, WEN Shengxiang, CHENG Junqing, TIAN Yuan.
0 引言
随着遥感技术的兴起,卫星数据已成为获取地表温度的重要手段。相较于传统观测方法,该技术具有快速、经济、宏观观测等明显优势(朱怀松等,2007;Liu et al.,2007),且在气象、水文和生态等领域成功应用(Pipunic et al.,2008;原琪翔,2022)。目前,基于热红外遥感的地表温度反演成果诸多:张兆明等(2025)基于Landsat系列卫星数据,生产青藏高原1986—2023年长时间序列地表温度产品,并验证其高精度;陆品延(2018)和胡盼盼(2021)分别模拟与重建相关数据,适用于青藏高原的地表温度反演方法及地表温度时空变化特征研究。但热红外遥感技术局限性明显,热红外信号易受大气和云雾干扰,在长时间序列和大尺度区域获取准确地表温度困难,限制了实际应用(毛克彪等,2006)。在此背景下,微波遥感技术凭借其穿透云层和植被的独特能力(Duan et al.,2017),为解决云雾覆盖区域数据获取难题提供新途径。朱瑜馨等(2021)基于FY-3D/MWRI亮温反演地表温度,发现单通道水平和垂直极化二元线性模型简单可行,为空间降尺度提供了新思路;刘信达(2023)基于主被动微波遥感技术并结合地面观测数据,分析青藏高原相关参数关联机制,进一步拓展了微波遥感在地表温度研究中的应用。
近年来,机器学习技术为地表温度反演领域带来新的机遇:如练义华(2023)研究构建了一种基于极端梯度提升算法(eXtreme Gradient Boosting,XGBoost)的被动微波地表温度降尺度和全天候地表温度生成方法;黄志明等(2021)基于轻量级梯度提升机算法(Light Gradient Boosting Machine,LightGBM)的降尺度方法得到藏东南冰川地区250 m空间分辨率全天候地表温度,为补充地表温度空间细节信息提供了支持;胡翠琴等(2025)基于随机森林(Random Forest,RF)构建了青藏高原地表温度降尺度模型,为精细化地表温度降尺度模型的构建和产品的研发提供参考。这表明机器学习方法已成为地表温度反演领域的重要研究手段。
青藏高原有“世界屋脊”之称,被称为“亚洲水塔”,在我国气候系统稳定、生物多样性保护等多方面具有重要的生态安全保障作用,而青海高原位于青藏高原东北部,同样具有独特的地域特点(陈国茜等,2025)。传统热红外遥感技术因受青海高原特殊地理环境等因素制约,难以获取准确、全面的地表温度信息,探索适用于该地区的地表温度反演方法意义重大。当前在青海高原地表温度反演研究领域,呈现出两种主要态势。其一,多数研究聚焦于光学遥感技术,且高度依赖国外数据资源(陆品延,2018;胡盼盼,2021;张兆明等,2025)。相比之下,利用我国自主研发的风云三号D星微波成像仪(Microwave Radiation Imager,FY-3D/MWRI)所获取的微波数据进行地表温度反演的研究较少。其二,机器学习方法在地表温度反演方面虽已取得一定进展(胡翠琴等,2025;翁珊珊,2025),但如何将其与国产微波数据深度融合,以此提高反演的精度和分辨率,仍是亟待攻克的难题。特别是在地理环境复杂的青海高原,进一步优化地表温度反演方法,无疑是一项重要任务。基于此,本文以青藏高原东北部青海高原作为研究区域,利用我国自主研发的FY-3D/MWRI亮温数据,结合集成学习技术反演青海高原的地表温度,并将反演结果与典型的干旱过程及洪涝过程作精度对比。以期为青海高原相关领域提供支持,为基于国产数据和技术的地表温度反演研究提供参考,同时通过研究地表温度变化规律,为干旱监测预警、水资源合理调配以及生态保护决策等提供科学依据。
1 研究区域与数据
1.1 研究区概况
青海高原位于青藏高原东北部,包括柴达木盆地、青南高原、青海湖流域、祁连山区和东部农业区5个生态功能区,地貌复杂多样,东西向和南北向的两组山系构成了青海高原地貌的骨架。以典型的大陆性高原气候为主,年平均气温为-5.7~8.5 ℃,受地形影响,年降水量差异大,为50~450 mm,具有日照时间长、日夜温差大、空气稀薄、湿度小等特点。青海省作为青藏高原重要核心区域,是黄河、长江、澜沧江的发源地,生态地位特殊而重要,主要生态系统类型包括高原草甸、高寒荒漠、高寒湿地、山地森林、河流与湖泊生态系统,以及农业生态系统等。青海高原地形复杂、气候多变、生态系统类型多样,对其进行地表温度反演研究,不仅有助于更好地理解和预测气候变化,而且对科研和实践都具有重要意义。
1.2 数据来源与预处理
1.2.1 遥感数据
FY-3D/MWRI亮温数据:研究选用FY-3D卫星搭载的微波成像仪获取的2021年1月—2023年12月L1级升轨数据,数据来源于青海省兴海地面卫星直收站,空间分辨率为10 km。微波成像仪共有5个观测频率波段(10.65、18.70、23.80、36.50、89.00 GHz),每个频率拥有水平与垂直两种极化形式,共计10个亮温通道,在全天时地表遥感监测中发挥重要的作用(王博,2022),能够提供53°地面入射角的全球被动微波辐射亮温数据。
研究基于交互式数据语言(Interactive Data Language,IDL),使用地理查找表(Geographic Lookup Table,GLT)几何校正法对FY-3D/MWRI一级升轨数据进行地理定位,并将图像DN(Digital Number)值转成亮度温度(Brightness Temperature,BT)(简称“亮温”),进行青海高原范围裁剪后,形成空间分辨率为0.1°×0.1°等经纬度投影的亮温数据。其中,DN值转成亮温的公式(朱瑜馨等,2021)如下:
式中:BT为各通道亮温,单位为K;DN为FY-3D/MWRI一级数据的无符号整型数据。
1.2.2 辅助数据
地理地形数据来源于美国地质调查局,空间分辨率为30 m。利用ArcGIS软件从海拔高度(dem)数据提取经度(lon)、纬度(lat)、坡度(slope)、坡向(aspect)。
土壤属性数据来源于国家青藏高原科学数据中心的青藏高原数字土壤制图产品数据集(2015—2024)(刘峰和张甘霖,2022),空间分辨率为1 000 m。选用与0~10 cm土壤水分相关性较高的土壤容重(soil bulk density,bd),土壤砂粒(sand)、土壤粉粒(silt)、土壤粘粒(clay)和土壤有机碳(soil organic carbon,soc)含量,其中土壤容重单位为g·cm-3,土壤砂粒、粉粒及粘粒含量单位为%,土壤有机碳单位为g·kg-1。
植被状况数据来源于美国国家航空航天局,空间分辨率为500 m。利用2012—2020年VNP09A1数据计算NDVI(Normalized Difference Vegetation Index),在年平均值基础上再进行多年最大值合成,用于表征地表植被覆盖状况。
1.2.3 气象数据
选取青海省55个国家气象站、753个区域自动站(图1)2021—2023年地表温度数据,用于构建地表温度机器学习模型;选取青海省东部农业区2023年7月上旬至8月中旬以及玉树藏族自治州通天河流域2023年8月降水量数据,用于评估地表温度集成学习模型的反演性能。以上数据来源于气象大数据云平台。
图1
2 研究方法
2.1 集成学习算法
相比传统的线性回归和多项式回归模型,集成学习算法可以更灵活地处理复杂的非线性关系。集成学习作为机器学习的一种策略,通过构建并结合多个弱学习器,能够提高预测性能,减小过拟合风险,提高模型的泛化能力(王彬雁等,2023)。本文采用RF、XGBoost和LightGBM 3种集成学习算法,结合亮温、地形参数、土壤属性及NDVI共21个特征,构建2021—2022年、2023年6—9月共计44 397条有效样本数据。数据按8:2比例随机划分为训练集和测试集,用于开发地表温度反演模型。
1)随机森林
式中:F1(x)为模型预测值;t为决策树的数量(
2)极端梯度提升算法
式中:FObj为目标函数;公式右则第一项为损失函数,第二项为正则化项;i为样本数(i
3)轻量级梯度提升机
轻量级梯度提升机(LightGBM)是一种高效的梯度提升框架,通过迭代构建决策树,逐步优化目标函数。每一棵树都试图修正前一棵树的残差,最终将所有树的预测结果相加,得到最终的回归模型(肖柳瑞等,2025)。与XGBoost相比,LightGBM采用了基于直方图的决策树算法和逐叶生长策略,以加速训练过程并减少内存使用。
针对不同算法特点,实施参数优化:RF重点配置集成学习参数;XGBoost着重调节提升树架构参数;LightGBM侧重优化直方图算法参数。所有模型均采用网格搜索法配合5折交叉验证进行超参数优化。其中,树模型统一设置基础架构参数,树的数量范围为50~150,树的深度为3~5,学习率范围为0.1~0.3,以确保模型性能的可比性与可靠性。
2.2 递归特征消除算法
递归特征消除算法(Recursive Feature Elimination,RFE)作为一种特征选择技术,可通过筛选最具有意义的特征提升模型性能(陈超等,2024)。本文运用该算法对影响地表温度的各因子进行重要性比较,并对其重要程度做归一化处理,归一化后的值范围为0~1,且数值越接近1,表示该特征在对应模型中的重要性越高。
2.3 评价指标
本文采用的模型评价指标包括均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)、决定系数(Determination Coefficient,R2),其中,RMSE、MAE越接近于0代表模型反演精度越高,而R2的数值越接近于1表明模型对数据的拟合程度越好。
2.4 技术路线
在青海高原地表温度估算过程中,利用RF、XGBoost、LightGBM集成学习算法,结合FY-3D/MWRI亮温数据、地理位置、地形要素、土壤属性和植被状态信息构建青海高原地表温度最优反演模型,并将最优模型结果与典型过程进行检验。图2为具体地表温度反演技术流程。
图2
3 结果分析
3.1 特征因子重要性排序
为更好地解释RF、XGBoost和LightGBM模型,对输入因子进行重要性评估。RF模型中通过计算每个特征在所有树中的平均信息增益来衡量特征重要性;而在XGBoost和LightGBM模型中,则通过考虑特征在树的分裂中的增益来评估。RF模型中贡献率大于0.2的特征有3个且b9(0.21)<b5(0.46)<b3(1.00),亮温数据贡献度排名较高[图3(a)];XGBoost模型中贡献率大于0.2的特征有6个且b9(0.25)<clay(0.27)<NDVI(0.45)<soc(0.49)<b3(0.92)<b5(1.00),亮温数据和地形要素贡献度排名较高[图3(b)];LightGBM模型在优化过程中更倾向于选择对预测结果影响更大的特征,而亮温数据的变化相对平稳,导致模型中b8和b4贡献率低于0.20,其余特征贡献率均大于0.2,且排名前五的特征有dem(0.72)<lat(0.73)<aspect(0.77)<lon(0.97)<slope(1.00),地形要素贡献度排名较高[图3(c)]。由此可见,XGBoost模型能够有效地利用亮温数据和地形要素来提升模型性能。
图3
图3
RF(a)、XGBoost(b)、LightGBM(c)模型特征重要程度排序
Fig.3
Feature importance ranking of RF (a), XGBoost (b), and LightGBM (c) models
3.2 不同地表温度回归模型精度对比
从3个回归模型性能指标(表1)来看,3个模型在训练集上的RMSE为2.7~6.0 K,其中RF<XGBoost<LightGBM;MAE为1.9~4.6 K,其中RF<XGBoost<LightGBM;R2为0.84~0.96,其中LightGBM<XGBoost<RF。3个模型在测试集上的RMSE为6.2~6.3 K;MAE为4.7~4.9 K,其中RF=XGBoost<LightGBM;R2为0.82~0.83,其中RF<LightGBM=XGBoost。尽管RF模型在训练集上的RMSE和MAE均为最小值,但训练集和测试集在多个评价指标上存在显著差异,说明该模型可能存在过拟合现象;而LightGBM、XGBoost模型的训练精度与测试精度差异较小,整体表现稳定。
表1 RF、XGBoost、LightGBM模型的评价指标
Tab.1
| 模型 | RMSE/K | MAE/K | R2 | |||
|---|---|---|---|---|---|---|
| 训练集 | 测试集 | 训练集 | 测试集 | 训练集 | 测试集 | |
| RF | 2.7 | 6.3 | 1.9 | 4.7 | 0.96 | 0.82 |
| XGBoost | 5.1 | 6.2 | 3.8 | 4.7 | 0.89 | 0.83 |
| LightGBM | 6.0 | 6.3 | 4.6 | 4.9 | 0.84 | 0.83 |
3.3 年平均地表温度对比
使用3种模型反演得到2021—2023年青海高原年平均地表温度空间分布(图4)。结果显示,RF模型反演的地表温度为-1.5~41.3 ℃,平均为18.2 ℃;XGBoost模型反演的地表温度为-1.4~41.2 ℃,平均为18.8 ℃;LightGBM模型反演的地表温度为0~39.0 ℃,平均为18.5 ℃。反演的柴达木盆地地表温度为23.8~24.3 ℃,其中RF<XGBoost<LightGBM;反演的青南高原地表温度为14.6~15.5 ℃,其中RF<LightGBM<XGBoost;反演的青海湖流域地表温度为17.4~18.2 ℃,其中LightGBM<RF<XGBoost;反演的祁连山区地表温度为14.6~15.5 ℃,其中RF<LightGBM<XGBoost;反演的东部农业区地表温度为20.5~21.0 ℃,其中LightGBM<XGBoost<RF;3个模型反演结果与实际观测结果在空间分布上基本一致,均显示出青南高原和祁连山区为低温区,柴达木盆地和东部农业区为高温区的空间分布特征;同时,反演结果均能体现出青南高原东南部囊谦县的地表温度比周边高的现象,这与已有研究结论基本一致(王佳琳等,2016;赵美亮等,2021)。
图4
图4
RF(a)、XGBoost(b)、LightGBM(c)模型反演及实际观测(d)的2021—2023年青海高原年平均地表温度空间分布
Fig.4
The spatial distribution of the annual land average surface temperature of the Qinghai Plateau during 2021-2023 based on the inversion of RF (a), XGBoost (b), and LightGBM (c) models and actual observations (d)
3.4 典型过程地表温度变化
3.4.1 东部农业区干旱过程对比
2023年7月上旬至8月中旬青海省东部农业区各地出现不同程度的气象干旱,其中民和县重度及特重度气象干旱持续达20 d,致使部分乡镇出现旱情。选取干旱过程前期(7月2日)、过程发生(7月7日、7月29日、8月3日)、过程结束(8月14日、8月25日)共6个时次卫星遥感数据,基于3种模型反演东部农业区平均地表温度,与该区域气象站点平均地表温度、降水量进行对比分析(图5)。结果显示:干旱过程前期,地表温度较低;随着干旱过程持续,地表温度有所升高;8月25日出现降水,干旱过程结束,地表温度下降明显。其中,RF、XGBoost、LightGBM模型反演值与实测值的偏差分别为0.1、0.9、1.4 ℃;在地表温度上升过程(7月2—29日)和下降过程(7月29日—8月25日)中,RF、XGBoost、LightGBM模型反演值较实测值偏差分别为-0.2~0.7 ℃、0.5~1.3 ℃、-0.1~3.2 ℃。由此可见,在干旱过程中,RF、XGBoost模型优于LightGBM模型。
图5
图5
2023年7月上旬至8月中旬青海省东部农业区干旱过程下3个模型反演地表平均温度及实测地表温度与降水量
Fig.5
The average land surface temperature retrieved by three models, measured land surface temperature and precipitation under the drought process in the eastern agricultural region of Qinghai Province from early July to mid-August 2023
3.4.2 通天河流域洪涝过程对比
2023年8月18日,青海省玉树藏族自治州通天河流域因前期降水叠加发生洪涝。选取洪涝过程前期(8月3日、14日)、过程发生(8月25日)和过程结束(9月5日)共4个时次卫星遥感数据,基于3种模型反演通天河流域地表温度,与该区域气象站点平均地表温度数据进行对比分析(图6)。结果显示:降水出现前期,地表温度较高;随着降水不断叠加,地表温度有所下降;过程结束后,地表温度回升。其中,RF、XGBoost、LightGBM模型反演值与实测值的偏差分别为0.35、-0.03、1.30 ℃;在地表温度下降过程(8月14—25日)和上升过程(8月25日—9月5日)中,RF、XGBoost、LightGBM模型反演值较实测值偏差分别为0.9~1.0 ℃、0.5 ℃、1.5~2.2 ℃。由此可见,在洪涝过程中,XGBoost模型的表现较为稳定且优于RF、LightGBM模型。
图6
图6
2023年8—9月青海省玉树藏族自治州通天河流域洪涝过程下3个模型反演地表平均温度与实测数据对比
Fig.6
Comparison of average land surface temperature retrieved by three models and observed data under flood processes in the Tongtian River Basin, Yushu Tibetan Autonomous Prefecture, Qinghai Province, from August to September 2023
综合以上分析结果,XGBoost模型在青海高原地表温度反演中表现最优。
4 讨论
青海高原地表温度的变化受多种因素的综合影响,其中地形要素的影响尤为显著。海拔高度对地表温度的贡献度较高,随着海拔升高,大气保温能力减弱、气温降低,导致不同海拔区域的地表温度呈现出明显的分层现象(何志伟等,2024);经度和纬度通过影响太阳辐射的分布,间接作用于地表温度;坡度和坡向也是不可忽视的影响因素,阳坡接收辐射多,地表温度高,阴坡反之,且坡度越大差异越显著(王国胜等,2022)。除了地形因素,土壤状态同样对地表温度有着多方面的影响。土壤容重影响孔隙度和通气性,进而影响热传导和地表温度日变化;不同土壤质地热特性差异大,例如,砂土升温快、降温也快,而黏土的温度相对稳定;土壤有机碳含量不仅影响土壤肥力和结构,还能调节土壤温度,而且青藏高原土壤有机碳的空间分布具有较强的异质性(曹若云,2024)。植被NDVI指标也是影响地表温度的重要因素之一,植被通过蒸腾和遮荫调节温度(王姝等,2024)。此外,亮温数据在3个模型中贡献率均较高,是地表温度反演的关键。
鉴于地表温度受众多且复杂因素的影响,获取高质量的地表温度数据显得尤为重要。本文后续将深入研究特征构建、特征优化及模型参数调优,并结合卫星数据和同化数据等多源融合技术,进一步提高青海高原的地表温度估算精度。
5 结论
本文针对青海高原复杂下垫面条件下地表温度反演精度不足的问题,创新性地融合多源异构数据与集成学习算法,开展地表温度反演模型优化研究。具体而言,以FY-3D/MWRI多通道亮温数据为核心输入,结合地理位置、地形要素、土壤属性及植被状态等辅助数据,构建了覆盖干旱与洪涝极端过程的数据集。通过对比RF、XGBoost、LightGBM 3种集成学习算法的建模效果,筛选出适用于青海高原的地表温度最优反演模型,得到以下主要结论。
1)RF模型中贡献率大于0.2的特征有3个,亮温数据贡献度排名较高;XGBoost模型中贡献率大于0.2的特征有6个,亮温数据和地形要素贡献度排名较高;LightGBM模型中b8和b4贡献率低于0.2,其余特征贡献率均大于0.2,地形要素贡献度排名较高。
2)RF、XGBoost、LightGBM模型的训练和测试精度均大于0.8,RF模型的RMSE、MAE最小,但该模型在训练集和测试集上的多个评价指标差异较大;而LightGBM、XGBoost模型的训练精度与测试精度差异较小。
3)3个模型均能较好地刻画出青海高原的2个低温区和2个高温区的空间分布特征;同时也能体现出青南高原东南部囊谦县的地表温度高于周边地区这一现象;在干旱和洪涝过程中,XGBoost模型的表现均优于RF和LightGBM模型。
参考文献
青藏高原数字土壤制图产品数据集(2015—2024)
[DB].
基于MODIS数据的青藏高原1 km分辨率逐日地表温度数据集(2000—2020)
[J].
青藏高原Landsat系列卫星地表温度产品(1986—2023)
[J].
An experimental comparison of three methods for constructing ensembles of Decision Trees: Bagging, Boosting, and Randomization
[J].
A framework for the retrieval of all-weather land surface temperature at a high spatial resolution from polar-orbiting thermal infrared and passive microwave data
[J].
Reducing the discrepancy between ASTER and MODIS land surface temperature products
[J].
Assimilation of remotely sensed data for improved latent and sensible heat flux prediction: A comparative synthetic study
[J].
A mono-window algorithm for retrieving land surface temperature from Landsat TM data and its application to the Israel-egypt border region
[J].
/
| 〈 |
|
〉 |
