基于机器学习订正ERA5的甘肃省地表太阳辐射时空分布
Spatiotemporal distribution of surface solar radiation in Gansu Province based on machine learning correction of ERA5
通讯作者: 王天河(1980—),男,甘肃静宁人,博士,教授,主要从事大气遥感、气溶胶-云-气候相互作用等研究。E-mail:wangth@lzu.edu.cn。
责任编辑: 黄小燕;校对:邓祖琴
收稿日期: 2025-09-1 修回日期: 2025-11-19
| 基金资助: |
|
Received: 2025-09-1 Revised: 2025-11-19
作者简介 About authors
吴欣华(1978—),男,甘肃武威人,高级工程师,主要从事交通运输与绿色能源研究。E-mail: 18551810@qq.com。
准确掌握地表太阳辐射的时空分布特征,对太阳能资源评估与区域新能源规划具有重要意义。以甘肃省地基辐射站点观测数据为基准,构建机器学习模型,对欧洲中期天气预报中心第五代再分析资料(ERA5)的逐小时地表下行太阳辐射进行偏差订正,在此基础上系统分析了2000—2024年甘肃省地表下行太阳辐射的时空变化特征,并统计了各地级行政区年总辐射量。结果表明:机器学习订正方法显著提升ERA5数据精度,订正后数据与地基观测值的相关系数(0.93)提高12.04%,均方根误差(106.2 W·m-2)降低36.45%;与中国科学院空天信息创新研究院发布的CARE(Cloud Remote Sensing,Atmospheric Radiation and Renewal Energy Application)卫星遥感产品对比,二者相关系数达0.87,偏差主要分布在青藏高原东北侧。研究期内,甘肃省地表下行太阳辐射年均值为206.73 W·m-2,折合年累计总辐射量为1 659.60 kWh·m-2,高于全国平均水平,空间上呈“西北高、东南低”的分布格局,其中酒泉地区可达1 828.44 kWh·m-2,具备优越的太阳能开发潜力,且全省未呈现明显的年际波动趋势。
关键词:
Accurately characterizing the spatiotemporal distribution of surface solar radiation is crucial for solar energy resource assessment and regional renewable energy planning. In this study, ground-based radiation observations in Gansu Province were used as the reference to bias-correct the hourly surface downward solar radiation from the fifth-generation ECMWF (European Centre for Medium-Range Weather Forecasts) reanalysis (ERA5) using a machine learning approach. Based on the corrected data, the spatiotemporal variability of surface downward solar radiation in Gansu Province during 2000-2024 was systematically analyzed, and annual cumulative radiation totals are quantified for each prefecture-level administrative region. The results demonstrate that the machine learning-based method significantly improves the accuracy of the ERA5. The correlation coefficient between the corrected data and ground observations increases by 12.04%, while the root mean square error decreases by 36.45%. Compared with the CARE (Cloud Remote Sensing, Atmospheric Radiation and Renewal Energy Application) satellite remote sensing product released by the Aerospace Information Research Institute, Chinese Academy of Sciences, the correlation coefficient between them reaches 0.87, and the remaining biases are mainly concentrated along the northeastern margin of the Tibetan Plateau. Over the study period, the provincial mean surface downward solar radiation is 206.73 W·m-2, corresponding to an annual cumulative total of 1 659.60 kWh·m-2, which is higher than the national average. Spatially, the radiation exhibits a distinct pattern of being higher in the northwest and lower in the southeast. The radiation in Jiuquan area reached 1 828.44 kWh·m-2, indicating excellent solar energy development potential. Moreover, no significant interannual fluctuation trend was observed across the province.
Keywords:
本文引用格式
吴欣华, 王思晨, 王菲菲, 王天河, 杜源, 陈涛, 牛亮亮, 赵怀宇, 张昊天.
WU Xinhua, WANG Sichen, WANG Feifei, WANG Tianhe, DU Yuan, CHEN Tao, NIU Liangliang, ZHAO Huaiyu, ZHANG Haotian.
0 引言
目前,地表太阳辐射数据主要通过3类途径获取:地基观测、卫星遥感及再分析资料。地基观测虽精度高,但站点稀疏、分布不均,尤其在甘肃省等地形复杂的西部地区,难以开展高分辨率研究(刘佳等,2008;刘丽莹等,2018);卫星遥感具备时空连续覆盖优势,近年来已在太阳能资源评估与预测等领域获得广泛应用(黄家敏,2015;Ma et al.,2020,黄春林,2024;杨帆等,2024;汪治和张福贵,2025),新一代多星组网监测系统(Geostationary Satellite Network Observation,GSNO)更将时空分辨率提升至1 h、5 km,精度优于云和地球辐射能量系统(Clouds and the Earth’s Radiant Energy System,CERES)、欧洲中期天气预报中心(European Centre for Medium-Range Weather Forecasts,ECMWF)第五代再分析资料(ERA5)等主流产品(李净和温松楠,2020;Shi et al.,2025),但其时间序列通常较短,难以支撑长期变化分析;再分析资料凭借覆盖广、时序长,成为长时序研究的重要数据源(王丹等,2012;彭晓敏,2019;张俊兵,2019),但因模式参数化方案的区域适应性不足,其在局部地区与实测值存在显著偏差,需借助地面观测进行订正(张星星等,2018;王雪洁等,2022;王传辉等,2022;焦铂洋等,2025)。
近年来,机器学习技术因其强大的非线性拟合能力,被广泛应用于太阳辐射数据的订正与预测。例如,随机森林(Random Forest,RF)方法在ERA5太阳辐射产品订正中显著降低了误差(王雪洁等,2022);全卷积神经网络通过对国际卫星云气候计划(International Satellite Cloud Climatology Project,ISCCP)数据均一化,构建了全球长时序高分辨率辐射数据集(Shao et al.,2022;Shao et al.,2024);此外,机器学习方法在超短期辐照度预测中,尤其在多云条件下表现优异(Ajith and Martínez-Ramón,2023)。这些方法为再分析资料的区域化订正提供了坚实的技术支撑。
1 资料与方法
1.1 地表下行太阳辐射观测资料
选取甘肃省境内敦煌、酒泉、民勤、榆中及西峰共5个地面自动观测站2022年1月至2024年12月的逐小时太阳辐照度观测数据作为建模参考值。针对部分时段存在数据缺失或质量不佳的问题,经质控标签筛选后,各站点分别获得24 924、24 950、24 923、24 816和24 881条有效数据。为评估模型性能,引入由中国科学院空天信息创新研究院发布的CARE(Cloud Remote Sensing,Atmospheric Radiation and Renewal Energy Application)产品中地表下行短波辐射变量进行交叉验证,数据年限为2016—2020年,空间范围为甘肃省全境。该数据基于Himawari-8卫星观测数据反演生成,覆盖东亚及太平洋主要区域,空间分辨率为0.1°×0.1°,时间分辨率为1 h。该数据采用优化后的直射与漫射辐射计算方法,综合考虑了气溶胶类型、云相态及气体成分等多种大气参数。质量验证结果表明,CARE卫星遥感产品优于CERES、ERA5及全球陆表特征参量数据(Global Land Surface Satellite,GLASS)等国际主流辐射产品,在中国西北地区与国家气象局地基观测数据的相关系数普遍在0.9以上,均方根误差约为20 W·m-2,具有较高的可靠性(Ma et al.,2020;胡斯勒图和马润,2022)。
1.2 建模输入数据
模型输入数据包括再分析资料中的地表下行太阳辐射、气象变量、气溶胶和地形高度,数据年限为2000—2024年,空间范围为甘肃省。地表下行太阳辐射来自ERA5的陆地分量数据集,空间分辨率为0.1°×0.1°,该变量为从起报时刻到预报结束时刻的辐射累积量,通过除以累计时长转为逐小时地表下行太阳辐射。气象变量同样选自ERA5数据集,包含总云量、相对湿度、2 m温度、边界层高度、降水量和10 m经向(纬向)风,空间分辨率为0.25°×0.25°,时间分辨率为1 h(Hersbach et al.,2020)。这些气象变量与太阳辐射的传输和衰减过程密切相关,已有研究指出其在提升辐射估算精度方面具有重要贡献(彭晓敏,2019;王传辉等,2022;陈虹杏等,2025)。
气溶胶也显著影响太阳辐射传输过程,采用现代时期研究与应用回顾性分析第二版(Modern-Era Retrospective analysis for Research and Applications Version 2,MERRA2)的M2T1NXAER产品提供的气溶胶光学厚度,空间分辨率为0.1°×0.1°,时间分辨率为1 h。MERRA2数据记录时刻为整半点,而ERA5及地基观测数据为整点记录。为统一时间对齐,通过双线性插值将气溶胶光学厚度转为整点时刻。此外,考虑地形对太阳辐射空间分布的影响,另外引入了航天飞机雷达地形测绘任务提供的数字高程数据(空间分辨率90 m)作为辅助输入。
1.3 方法
采用轻量级梯度提升机器(Light Gradient Boosting Machine,LGBM)方法对ERA5地表下行太阳辐射数据进行偏差订正。LGBM是一种基于梯度提升框架的集成学习方法(Machado et al.,2019),通过迭代方式训练多个弱学习器(决策树),逐步优化目标函数以提升模型预测性能。该模型在第
式中:
式中:
将ERA5提供的地表下行太阳辐射转换为小时平均辐射通量密度,并与2 m气温、相对湿度、云量、气溶胶光学厚度等变量与地面观测数据按时空最近邻方法进行匹配,共同作为LGBM模型的输入特征。为捕捉时空变化信息,还加入了站点经纬度、年积日(反映季节变化)和每日小时(表征日循环模式)。所有特征在输入模型前均采用Z-score方法进行标准化,以消除量纲影响。
模型基于站点观测数据构建,使用2023年数据作为训练集、2022年与2024年数据作为测试集,并分别从不同辐射强度等级、不同时段及不同站点3个角度评估模型性能。进一步将模型预测结果与2016—2020年CARE卫星遥感产品进行对比,分析两类数据在不同季节的空间分布偏差及逐小时误差变化。采用的评估指标包括相关系数(r)、均方根误差(Root Mean Square Error,RMSE)、平均绝对误差(Mean Absolute Error,MAE)与相对误差(Relative Error,RE)。
2 结果分析
2.1 ERA5地表下行太阳辐射订正
2.1.1 基于地面观测的检验结果
图1
图1
未订正及不同机器学习方法订正的2022—2024年ERA5逐小时地表下行太阳辐射与地面站点观测值的散点图
(a)未订正,(b)LGBM订正,(c)RF订正,(d)SVM订正
(黑色实线为1∶1基准线,灰色阴影表示高斯核密度估计值)
Fig.1
Scatter plots of hourly ERA5 surface downward solar radiation against in-situ observations before correction and corrected by different machine learning methods during 2022-2024
(a) Uncorrected,(b) LGBM-corrected,(c) RF-corrected,(d) SVM-corrected
(The black solid line indicates the 1∶1 reference line,and the gray shading represents the gaussian kernel density estimate)
为进一步评估模型性能,将LGBM与RF和支持向量机(Support Vector Machine,SVM)两种常用机器学习方法进行对比。RF订正后散点趋于集中,RMSE和MAE分别降至111.0、48.2 W·m-2,相关系数为0.92,精度优于原始ERA5数据,但仍略低于LGBM[图1(c)]。SVM订正后数据的相关系数与LGBM相同(0.93),但在辐射低值区和高值区均存在拟合偏差,导致RMSE(112.3 W·m-2)和MAE(50.1 W·m-2)较高。相比之下,LGBM订正后的散点更贴近理想对角线,整体预测精度与稳定性更优,因此最终选择LGBM作为ERA5数据的订正模型。
为验证LGBM订正结果的可靠性,进一步开展时间外推检验。图2为甘肃省区域内2022—2024年LGBM订正前后的ERA5地表下行太阳辐射与地面观测值逐日变化及测试集偏差的概率密度分布。可以看出,ERA5原始数据存在系统性高估,而订正后数据与观测值的时序变化趋势基本一致。ERA5误差分布整体偏向正值,峰值远离零点,且标准差较大,表明误差离散程度较高。经LGBM订正后,误差均值由23.9 W·m-2降至2.5 W·m-2,标准差由31.6 W·m-2降至28.7 W·m-2,分布峰值更接近零值,曲线更为尖锐,误差集中度有所提升。
图2
图2
2022—2024年LGBM订正前后的ERA5地表下行太阳辐射与地面观测值逐日变化(a)及测试集偏差(订正前后的ERA5数据减去地面观测)概率密度分布(b)
Fig.2
Daily variations of ERA5 surface downward solar radiation before and after LGBM correction with ground observations during 2022-2024 (a) and probability density distribution of test dataset biases (ERA5 data before and after correction minus ground observations)(b)
为量化订正后数据在不同辐射强度及典型时刻的误差特征,将地表下行太阳辐射(0~1 000 W·m-2),以100 W·m-2为间隔划分为10个区间,分别为[0,100)、[100,200)、[200,300)、[300,400)、[400,500)、[500,600)、[600,700)、[700,800)、[800,900)、[900,1 000) W·m-2,选取08:00(北京时,下同)(日照增强)、12:00(辐射峰值)和16:00(日照衰减)3个典型时刻,分别计算各区间内订正前后的平均绝对误差与相对误差(图3),不同时刻和辐射区间的样本量占比见图4。整体上,LGBM订正显著提升了数据精度,3个时刻的平均绝对误差分别降低61.46%、18.91%和51.42%,相对误差分别降低56.61%、25.71%和68.1%。
图3
图3
不同时刻、不同辐射区间ERA5与LGBM订正的地表下行太阳辐射相较于观测值的平均绝对误差和相对误差
(a) 08:00,(b)12:00,(c)16:00
Fig.3
Mean absolute error and relative error of surface downward solar radiation from ERA5 and LGBM correction compared with observations at different times and different radiation intervals
(a) 08:00,(b) 12:00,(c) 16:00
图4
图4
不同时刻、不同辐射区间的样本量占比
Fig.4
Percentage of samples in each radiation interval at different times
清晨时段(08:00),低辐射区间(0~300 W·m-2)样本占比高,ERA5原始数据的平均绝对误差随辐射强度增加而迅速上升。经LGBM订正后,除0~100 W·m-2区间的误差与原始值接近外,其余区间误差均显著降低,分布趋于平缓,相对误差大幅下降。正午时段(12:00)以高辐射区间(400~800 W·m-2)样本为主,订正前后数据精度总体相当,LGBM仅带来轻微改善。下午时段(16:00)辐射强度逐渐衰减,LGBM表现出显著的误差削减效果,尤其在低值区间改善更明显。总体而言,订正效果在太阳天顶角较大、辐射值较低的时段更为突出,而在天顶角较小、辐射值较高(>700 W·m-2)的区间改进有限,这可能由于高辐射区间误差来源更为复杂,且训练样本中高值样本较少,导致模型优化更侧重于中低值区间。
为评估LGBM模型在不同地理区域的性能表现,对5个地面观测站的误差及相关性指标进行统计(图5)。结果显示,LGBM显著提升了地表下行太阳辐射的精度,各站点订正后的统计指标均更接近参考点值,表明模型具有良好的区域适应能力。5个站点的RMSE平均降低36.43%,MAE平均降低57.92%,相关系数提升11.79%。从季节变化来看,春季和冬季改善最显著,各站点数据明显向参考值趋近;夏季改善幅度相对较小。敦煌站的性能提升最突出,其标准差和均方根误差显著降低,相关系数相较ERA5提高18.38%;西峰站的改进相对较低,RMSE和MAE分别下降12.81%和32.18%,相关系数提升8.51%。总体而言,LGBM在绝大多数站点和季节显著提升了数据质量,表现出良好的空间一致性和可靠性。
图5
图5
不同地面站点、不同季节订正前后的地表下行太阳辐射精度对比
(a)春季,(b)夏季,(c)秋季,(d)冬季
Fig.5
Comparison of the accuracy of surface downward solar radiation before and after correction across different ground stations and different seasons
(a) spring,(b) summer,(c) autumn,(d) winter
2.1.2 基于卫星遥感资料对比评估
LGBM订正后的地表下行太阳辐射数据与CARE卫星遥感产品在空间分布上表现出较好的一致性,两者绝对偏差的空间分布如图6所示。春季,平均绝对误差均值为15.98 W·m-2,高值区主要分布在青藏高原东北侧;夏季地表下行太阳辐射达到全年最高,但订正后数据与CARE卫星遥感产品之间的平均绝对误差最小,均值为8.31 W·m-2;秋季两类数据的误差主要分布于甘肃省酒泉市南部,绝大部分区域误差普遍低于16.28 W·m-2(75%分位);冬季误差达到最大,均值为22.13 W·m-2。LGBM订正结果数值略高于CARE卫星遥感产品,订正未能完全消除该系统偏差。其原因可能在于高值区间样本数量有限,误差来源复杂,同时建模所选取的变量仍不充分,限制了模型对相关物理过程的学习能力。
图6
图6
不同季节LGBM订正数据相较于CARE卫星遥感产品的地表下行太阳辐射的平均绝对误差空间分布(单位:W·m-2)
(a)春季,(b)夏季,(d)秋季,(d)冬季
Fig.6
Spatial distribution of mean absolute error of surface downward solar radiation between LGBM-corrected data and CARE satellite remote sensing products in different seasons (Unit: W·m-2)
(a) spring,(b) summer,(c) autumn,(d) winter
日尺度(图7)上,LGBM订正数据与CARE卫星遥感产品的平均绝对误差自06:00起逐渐上升,09:00—16:00维持较高水平,13:00—15:00达约113 W·m-2的峰值,15:00后逐步下降。平均绝对误差的日变化趋势与太阳辐射强度基本同步。二者相关系数在06:00—07:00处于较高水平(约0.90),随后逐渐下降,至13:00左右达到谷值(0.83),之后回升,于17:00—19:00重返0.90左右,以上相关系数均通过α=0.05的显著性检验。午后为平均绝对误差峰值与相关系数谷值的重叠时段,该时段太阳辐射最强,辐射传输过程的不确定性增加,导致误差升高、相关性降低。相比之下,清晨与傍晚太阳辐射适中,大气状态相对稳定,数据误差较小,相关性较高。总体而言,订正后数据与CARE卫星遥感产品在日尺度上具有较好的一致性,可作为后续分析与应用的基础数据集。
图7
图7
LGBM订正数据相较于CARE卫星遥感产品的地表下行太阳辐射数据的平均绝对误差及相关系数逐时变化
Fig.7
Hourly variation of mean absolute error and correlation coefficient of surface downward solar radiation between LGBM-corrected data and CARE products
2.2 甘肃省太阳辐射时空分布
2.2.1 空间分布与总辐射量
基于训练完成的LGBM模型,生成了2000—2024年甘肃省逐小时地表下行太阳辐射数据集,其间甘肃省地表下行太阳辐射均值为206.73 W·m-2,整体呈现“西北高、东南低”的空间分布格局(图8),西北部酒泉—嘉峪关地区年均值达216.78 W·m-2,南部陇南—天水—定西一带为176.61 W·m-2。河西走廊西北部的酒泉—嘉峪关为辐射高值核心区,其中酒泉、嘉峪关和张掖的年均辐射分别为222.53、212.38、215.44 W·m-2,是全省太阳能资源最丰富的地区;中部地区年均辐射为180.00~200.00 W·m-2;南部陇南、天水及甘南地区为低值区,年均值为100.00~150.00 W·m-2。
图8
图8
2000—2024年甘肃省全年及不同季节平均的地表下行太阳辐射空间分布(单位:W·m-2)
(a)全年,(b)春季,(c)夏季,(d)秋季,(e)冬季
Fig.8
Spatial distribution of annual and seasonal mean surface downward solar radiation in Gansu Province during 2000-2024 (Unit: W·m-2)
(a) annual,(b) spring,(c) summer,(d) autumn,(e) winter
季节尺度上,夏季河西走廊西北部太阳辐射均值可达300 W·m-2,高值区向东南延伸至金昌、武威一带,形成连片高辐射区;南部陇南、天水地区辐射均值多为150~220 W·m-2,与西北部形成明显梯度差异。春季分布与夏季相似,但辐射强度略低,酒泉—嘉峪关地区约为270~300 W·m-2,张掖—兰州一线为220~270 W·m-2,南部地区多为120~200 W·m-2。秋季受太阳高度角降低与昼长缩短影响,全省辐射普遍回落至100~250 W·m-2,空间梯度趋于平缓,仅酒泉—张掖一带仍维持在220 W·m-2以上,南部大部分地区低于150 W·m-2。冬季太阳辐射为全年最低,全省平均辐射为80~160 W·m-2。
为进一步量化太阳能资源可利用水平,在ERA5订正结果基础上计算了甘肃省各市(州)全年及不同季节的累计辐射量(表1)。2000—2024年全省年总辐射量为1 379.21~1 828.44 kWh·m-2,平均为1 659.60 kWh·m-2,高于全国平均水平(中国气象局风能太阳能中心,2024)。西北部的酒泉、张掖、嘉峪关和武威年总辐射量普遍超过1 745.00 kWh·m-2,太阳能资源条件优越;中部(金昌、白银、兰州、临夏、甘南、定西)年总辐射量主要集中在1 624.83~1 763.50 kWh·m-2;东南部(陇南、天水、平凉、庆阳)则多低于1 600.00 kWh·m-2。从季节贡献看,夏、春季辐射量最高,合计约占全年60%;秋季总辐射量降至250.00~380.00 kWh·m-2,冬季进一步降低至280.00~350.00 kWh·m-2。综上分析,甘肃省太阳能资源总体呈现显著的西北优势格局,西北部适宜规模化光伏开发,东南部资源相对有限但仍具备开发利用潜力。
表1 2000—2024年甘肃省各市(州)全年及不同季节地表下行太阳总辐射量单位:kWh·m-2
Tab.1
| 市(州) | 春季 | 夏季 | 秋季 | 冬季 | 全年 |
|---|---|---|---|---|---|
| 嘉峪关市 | 530.86 | 555.83 | 374.93 | 284.03 | 1 745.65 |
| 金昌市 | 524.35 | 555.25 | 376.99 | 306.91 | 1 763.50 |
| 临夏回族自治州 | 511.13 | 518.52 | 338.51 | 334.59 | 1 702.75 |
| 白银市 | 499.43 | 542.63 | 343.37 | 309.58 | 1 695.01 |
| 庆阳市 | 464.68 | 508.55 | 297.32 | 292.76 | 1 563.31 |
| 兰州市 | 507.33 | 526.08 | 345.87 | 324.13 | 1 703.41 |
| 天水市 | 433.09 | 479.82 | 267.35 | 289.55 | 1 469.81 |
| 平凉市 | 452.73 | 489.65 | 278.09 | 291.37 | 1 511.84 |
| 陇南市 | 398.67 | 449.72 | 249.65 | 281.17 | 1 379.21 |
| 定西市 | 481.20 | 504.87 | 316.65 | 322.11 | 1 624.83 |
| 酒泉市 | 562.73 | 592.70 | 384.13 | 288.88 | 1 828.44 |
| 张掖市 | 542.64 | 535.29 | 381.44 | 307.50 | 1 766.87 |
| 武威市 | 523.34 | 550.84 | 370.08 | 307.49 | 1 751.75 |
| 甘南藏族自治州 | 537.07 | 506.06 | 337.43 | 347.40 | 1 727.96 |
2.2.2 日变化与年际变化
甘肃省地表下行太阳辐射一般于06:00后迅速上升(冬季约为07:00),在12:00—13:00达到峰值[图9(a)];15:00后辐射迅速下降,20:00后基本趋近于零,整体变化符合太阳辐射日周期规律。夏季峰值最高,平均接近800.00 W·m-2;冬季峰值最低,约为500.00 W·m-2;春秋两季维持在600.00~700.00 W·m-2左右。
图9
图9
2000—2024年甘肃省地表下行太阳辐射日变化(a)和年际变化(b)
(灰色阴影部分为全部数据的上下四分位数区间)
Fig.9
Diurnal variation (a) and inter-annual variation (b) of surface downward solar radiation in Gansu during 2000-2024
(The gray shaded areas represent the interquartile range of the full dataset)
年际变化[图9(b)]方面,根据辐射空间分布特征将全省划分为辐射高值区(酒泉、嘉峪关),过渡区(张掖、金昌、武威、白银和兰州)和低值区(其余地区)。2000—2024年,全省辐射整体稳定,未出现显著年际波动。高值区年均值约为218.69 W·m-2,过渡区约为208.60 W·m-2,均具备建设大型光伏电站的资源条件。低值区年际波动相对明显,均值为175.00~195.00 W·m-2,且呈现微弱下降趋势(p<0.05),衰减速率为0.25 W·m-2·a-1,对光伏资源开发影响较小。
3 讨论
在全球能源转型与我国“双碳”目标推进的背景下,太阳能资源的精细化评估与开发规划对地表太阳辐射数据的精度提出了更高要求。已有研究指出,ERA5在中国区域逐小时辐射与直射辐射存在不同程度系统性偏差,区域化订正成为提高再分析辐射产品区域应用精度的必要环节(Cao et al.,2022)。
基于LGBM模型对甘肃省ERA5地表太阳辐射进行订正,结果表明订正后数据与地面观测的相关系数提升12.04%,RMSE降低36.45%,且在不同辐射区间、时刻及站点均表现稳定。与现有研究对比发现,ERA5辐射数据的订正效果因机器学习方法和区域不同而存在明显差异。例如,陈虹杏等(2025)采用梯度提升树对华南两站订正,相关系数仅提升约3%,RMSE降低约8%;王雪洁等(2022)利用随机森林在全国多站的订正中,RMSE降幅为6.75%~66.42%,反映出明显的区域依赖性。上述对比表明,选择合适的机器学习模型并考虑区域特性,是提升ERA5数据本地化适用性的关键。实验在甘肃地区取得较稳定的订正效果,可能得益于LGBM模型的鲁棒性(Machado et al.,2019),以及引入了气溶胶光学厚度、云量与地形高程等多源辅助变量,增强了对西北复杂下垫面太阳辐射的模拟能力。
目前,订正模型仅基于甘肃省内5个辐射站点构建,样本的空间覆盖与地形代表性不足,可能限制模型在局地复杂下垫面区域的外推稳定性。其次,当前建模未引入雪盖或积雪反照率变化、气溶胶组分垂直分布及更精细的云微物理信息,这些过程在高辐射区间与峰值时段可能造成残余偏差。未来工作将进一步扩充观测站点数量,融合多源卫星遥感数据,并引入迁移学习等深度学习方法,以更好地捕捉辐射传输过程中的复杂时空依赖关系,提升再分析辐射产品在甘肃及周边地区的适用性,为太阳能资源的高分辨率评估与可持续开发提供更可靠的科技支撑。
4 结论
基于ERA5逐小时地表下行太阳辐射和气象数据,以甘肃省5个辐射站点观测值为基准,利用LGBM模型对ERA5辐射数据进行了系统订正,并基于订正结果分析了2000—2024年甘肃省太阳辐射的时空分布特征,得到以下主要结论。
1)LGBM模型显著提升了ERA5地表下行太阳辐射的数据精度,订正后数据与地基观测值的相关系数从0.83提升至0.93,均方根误差由167.1 W·m-2下降至106.2 W·m-2。
2)所构建的模型具备良好的时空泛化能力。在训练时段外,模型预测值与实测值仍高度吻合,整体偏差接近于零;与CARE卫星遥感产品相比,两者空间分布一致性较高(相关系数0.87),误差主要分布在青藏高原东北侧,时间上则集中于正午辐射峰值时段。
3)2000—2024年甘肃省地表下行太阳辐射均值为206.73 W·m-2,总体呈现“西北高、东南低”的空间分布格局,年均值由西北部酒泉—嘉峪关地区的216.78 W·m-2逐步递减至东南部陇南—天水—定西一带的176.61 W·m-2。
4)甘肃省地表下行太阳辐射日变化显著,通常于06:00—07:00开始上升,12:00—13:00达到峰值(约700 W·m-2),研究期内未出现显著的年际波动,仅东南部呈现微弱下降趋势(-0.25 W·m-2·a-1)。
5)甘肃省年总辐射量为1 659.60 kWh·m-2,显著高于全国平均水平;西北部地区普遍超过1 745.00 kWh·m-2,酒泉市可达1 828.44 kWh·m-2,资源禀赋优越,适宜大规模光伏开发;中部地区为1 624.83~1 763.50 kWh·m-2;东南部低于1 600.00 kWh·m-2,资源潜力相对有限。
参考文献
浙江省中尺度数值预报系统的地表太阳辐射预报订正方法
[J].利用2019年杭州站辐射观测数据及浙江省中尺度数值预报业务系统(Zhejiang WRF ADAS real_time modeling system,ZJWARMS)逐时模拟结果,评估ZJWARMS对地表太阳辐射的模拟效果。在此基础上,选取ZJWARMS输出的短波辐射通量、云量、地表温度、比湿等10个气象因子,建立不同天气分型的地表太阳辐射预报(model output statistics,MOS)订正模型。结果表明:ZJWARMS能较好地模拟太阳辐射的日变化特征,其与观测值的相关系数达0.82,但总体上模拟值较观测值偏大,晴天时误差相对较小,阴雨天时误差明显增大。MOS模型订正后,预报效果明显改进,平均绝对百分比误差由订正前的273.4%下降至46.3%,均方根误差由246.7 W·m<sup>-2</sup>下降至105.0 W·m<sup>-2</sup>。MOS模型订正效果在不同月份存在一定差异,8月订正效果最好,订正后平均绝对百分比误差由126.6%下降到26.3%,4月订正效果相对较差,订正后平均绝对百分比误差为56.6%。
基于短期历史资料的河西地区太阳辐射预报订正研究
[J].基于数值模式的太阳辐射预报往往存在一定的系统性偏差,AVT订正方法能够有效降低预报偏差,本文利用该方法对甘肃河西地区两个光伏电站的太阳辐射预报结果进行订正。结果表明:(1)订正前预报偏差呈现明显的“先增加、后减小”日变化特征,订正后日变化特征不明显,并且订正前预报偏差与观测值线性关系显著,订正后线性关系减弱(相关系数降低、拟合优度降低);(2)太阳辐射存在明显的年变化特征,其预报偏差春季最高,其次为夏季,冬季最小,订正后不同季节的预报偏差均降低,春季和夏季降低较为明显。
东亚—太平洋地表光合有效辐射、紫外辐射、短波辐射数据集(2016—2020)
[DS].
基于3种机器学习法的太阳辐射模拟研究
[J].定量模拟太阳辐射对认识黄土高原区气候变化至关重要,现有研究表明机器学习可以很好地模拟太阳辐射,但不同的机器学习法在不同区域模拟精度不同,为了实现黄土高原区太阳辐射数据的最优模拟,从而为农作物模型、水文模型以及气候变化模型提供精度更高的太阳辐射数据。基于随机森林(RF,Random Forest)、人工神经网络(ANN,Artificial Neural Network)和支持向量机(SVM,Support Vector Machine)3种机器学习法来模拟黄土高原地区的太阳辐射并对这3种算法进行比较研究,选取了2003~2009年14个辐射站点和2010~2016年10个辐射站点的实测数据和对应参数气压、云量、云光学厚度、臭氧、可降水水汽以及DEM、坡度、坡向作为模型的训练数据,随机选取2010~2016年4个辐射站点的太阳辐射实测数据对模拟结果进行验证。验证结果表明:RF模型在黄土高原及周边地区的模拟效果最优,平均偏差(MBE)为-0.17 MJ·m<sup>-2</sup>,均方根误差(RMSE)为1.48 MJ·m<sup>-2</sup>,拟合优度达到0.96。研究结果表明:RF模型与气象数据及遥感数据结合能够有效解决黄土高原无辐射观测区的太阳辐射模拟问题,对区域太阳辐射的研究具有重要意义。
3种再分析资料在太阳能资源评估中的适用性
[J].基于1979—2019年中国53站逐月水平面总辐射(GHI)观测资料,采用REOF方法将中国GHI划分为北方地区、西南地区、长江中下游地区和东南地区4个区域,从太阳能资源的角度,对比NCEP/DOE、JRA55和ERA5大气再分析GHI资料与地面观测资料差异。结果表明:3种大气再分析GHI资料整体较地面观测偏大,均方根偏差和相对偏差最大的区域均位于30°N附近,年际变化一致性均为东南部优于西北部;ERA5数据在均方根偏差、相对偏差、年际变化规律以及空间分辨率等方面均优于NCEP/DOE和JRA55;1979—2019年期间,3种大气再分析资料与地面观测数据的差异呈减小趋势,其中JRA55和ERA5资料在各区域与观测之间的偏差减小趋势显著;太阳能资源稳定度方面,3种大气再分析资料在北方地区与观测接近,南方地区JRA55以偏高为主,NCEP/DOE和ERA5以偏低为主。
中国太阳能资源评估及其利用效率研究进展与展望
[J].围绕太阳能资源分布特征、资源潜力评估和太阳能利用效率的研究,从中国太阳能资源估算及其分布特征、中国太阳能资源潜力评估、太阳能利用方式及其太阳能利用效率研究、光伏发电效率评估、气候变化因子对光伏发电效率的影响等方面,归纳凝练了太阳能资源评估及其利用效率研究的主要成果。结合相关研究的国际前沿、热点问题和社会经济发展需求,剖析了研究中存在的不足和问题;提出加强气候变化背景下太阳能高辐射区光能资源变化新特征研究、深化太阳能高辐射区太阳能发电效率评估研究、深入开展气候变化因子对光伏发电效率的影响及其机制的研究、细化光能开发潜力评估、进一步完善光伏发电效率预测系统、推动绿色低碳社会经济发展等中国未来太阳能资源评估及利用研究需要重点关注的方向。
ECMWF地表太阳辐射数据在我国的误差及成因分析
[J].利用2000-2009年中国气象局(CMA)地表太阳辐射台站资料,对欧洲中期天气预报中心(ECMWF)地表太阳下行短波辐射产品进行多时间尺度的计算与分析,检验ECMWF地表辐射产品对于中国地区太阳辐射特征的表现。本文通过聚类分析将中国地区分为8个区域,考虑到ECMWF大气因素对ECMWF地表辐射的影响和大气因子分布的空间异质性,引入地理探测器对ECMWF再分析辐射产品的时空误差进行定量分析,来判明影响ECMWF辐射精度的主要大气因子。结果表明:总体上看,ECMWF地表太阳辐射要高于地面观测数据,月均偏差为18.28W/m<sup>2</sup>;ECMWF地表太阳辐射表现出季节性差异,夏秋季节明显好于春冬季节,相对偏差较大的数据集中分布在12、1、2和3月,相对偏差较小的数据集中分布在6、7、8和9月;不同区域在冬季和夏季的主导大气影响因子不同,夏季中国西北(1区)、高原(3区)、西南(4区)和四川盆地(5区)地区主导影响因子都是气溶胶,东南(6区)地区的主导影响因子是地表反照率和气溶胶,中东部地区(7区)的主导影响因子是云覆盖率和气溶胶,但是因子解释较小,分别为0.0228和0.0202,东北地区(8区)4个因子均未通过显著性系数检验,因子对相对偏差的变化影响不显著;冬季中国西北(1区)、高原(3区)、中东(7区)、东北(8区)和四川盆地(5区)地区的主导影响因子都是云覆盖率,西南(5区)和东南(6区)地区的辐射主要受到气溶胶的影响。
2023年中国风能太阳能资源年景公报
[EB/OL]. (
Deep learning algorithms for very short term solar irradiance forecasting: A survey
[J].
Country-level evaluation of solar radiation data sets using ground measurements in China
[J].
The ERA5 global reanalysis
[J].
LightGBM: A highly efficient gradient boosting decision tree
[C]//
Estimation of surface shortwave radiation from himawari-8 satellite data based on a combination of radiative transfer and deep neural network
[J].
LightGBM: An effective decision tree gradient boosting method to predict customer loyalty in the finance industry
[C]//
Predictive models for photosynthetic active radiation irradiance in temperate climates
[J].
Data augmentation-based estimation of solar radiation components without referring to local ground truth in China
[J].The power generation of bifacial photovoltaic modules is greatly related to the diffuse solar radiation component received by the rear side, but radiation component data are scarce in China, where bifacial solar market is large. Radiation components can be estimated from satellite data, but sufficient ground truth data are needed for calibrating empirical methods or training machine learning methods. In this work, a data-augmented machine learning method was proposed to estimate radiation components. Instead of using observed ground truth, far more abundant radiation component data derived from sunshine duration measured at 2,453 routine weather stations in China were used to augment samples for training a machine-learning-based model. The inputs of the model include solar radiation (either from ground observation or satellite remote sensing) and surface meteorological data. Independent validation of the model at Chinese stations and globally distributed stations demonstrates its effectiveness and generality. Using a state-of-the-art satellite product of solar radiation as input, the model is applied to construct a satellite-based radiation component dataset over China. The new dataset not only outperforms mainstream radiation component datasets, but also has significantly higher accuracy than satellite-based datasets derived from other machine learning methods trained with limited observations, indicating the superiority of our data-augmented method. In principle, this model can be applied on the global scale without additional training with local data.
Convolutional neural network-based homogenization for constructing a long-term global surface solar radiation dataset
[J].
Near-global monitoring of surface solar radiation through the construction of a geostationary satellite network observation system
[J].
Solar radiation prediction: A multi-model machine learning and deep learning approach
[J].
/
| 〈 |
|
〉 |
