• CN 62-1175/P
  • ISSN 1006-7639
  • 双月刊
  • 中国科技核心期刊
  • 中国学术期刊综合评价数据库统计源期刊
  • 中文科技期刊数据库收录期刊

干旱气象, 2024, 42(5): 719-733 DOI: 10.11755/j.issn.1006-7639-2024-05-0719

“人工智能在干旱气象及相关领域的应用”专栏

卷积神经网络研究进展及其在大气科学中的应用

马敏劲,, 陈然, 曹译丹, 张星宇, 李岳彬

兰州大学大气科学学院,甘肃 兰州 730000

Advances in convolutional neural networks and their applications in atmospheric science

MA Minjin,, CHEN Ran, CAO Yidan, ZHANG Xingyu, LI Yuebin

College of Atmospheric Sciences, Lanzhou University, Lanzhou 730000, China

责任编辑: 邓祖琴;校对:王涓力

收稿日期: 2024-04-17   修回日期: 2024-07-9  

基金资助: 干旱气象科学基金面上项目(IAM202002)

Received: 2024-04-17   Revised: 2024-07-9  

作者简介 About authors

马敏劲(1983—),男,云南昭通人,副教授,主要从事大气边界层数值模拟、气象领域的机器学习及应用、创新方法研究。E-mail:minjinma@lzu.edu.cn

摘要

随着计算机技术和大数据的进步,深度学习尤其是卷积神经网络已成为处理网格结构大规模数据的主流技术,特别是在计算机视觉领域。卷积神经网络也开始应用于大气科学领域,针对多角度、多尺度的气象数据进行处理。本文综述了卷积神经网络及其在大气科学中的应用进展,总结如下:通过网络深度、宽度的优化和量级压缩,卷积神经网络的准确率和效率显著提升,成为计算机视觉任务的主流技术;卷积神经网络能高效处理气象数据,已应用于气象目标识别、极端事件检测、数值模式改进及干旱气象事件预报等方面,显示出良好的应用前景;卷积神经网络在大气科学中的应用尚处于探索阶段,且面临气象数据复杂、模型结构改进需求和可解释性差等挑战,需深入研究以推动其发展。

关键词: 深度学习; 大气科学; 卷积神经网络; 图像识别; 数值模式改进

Abstract

With the advancement of computer technology and big data, convolutional neural networks of the deep learning have become the mainstream technology for processing large-scale data with grid structure, especially in the field of computer vision. Convolutional neural networks have also been gradually applied in the field of atmospheric science to process multi-angle and multi-scale meteorological data. This paper reviews the progress of convolutional neural networks and their applications in atmospheric science, the conclusions are as following. Through the optimization of network depth and width and magnitude compression, the accuracy and efficiency of convolutional neural networks have been significantly improved, and they have become the mainstream technology for computer vision tasks. The convolutional neural network can process meteorological data efficiently, and has been applied in meteorological target recognition, extreme event detection, numerical model improvement and drought weather event prediction, etc., showing a good application prospect. The application of convolutional neural networks in atmospheric science is still in the exploratory stage, and faces challenges such as the complexity of meteorological data, the need for improvement of model structure and poor interpretability, so further research is needed to promote its development.

Keywords: deep learning; atmospheric science; convolutional neural network; image recognition; improvements in numerical weather prediction

PDF (9418KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

马敏劲, 陈然, 曹译丹, 张星宇, 李岳彬. 卷积神经网络研究进展及其在大气科学中的应用[J]. 干旱气象, 2024, 42(5): 719-733 DOI:10.11755/j.issn.1006-7639-2024-05-0719

MA Minjin, CHEN Ran, CAO Yidan, ZHANG Xingyu, LI Yuebin. Advances in convolutional neural networks and their applications in atmospheric science[J]. Arid Meteorology, 2024, 42(5): 719-733 DOI:10.11755/j.issn.1006-7639-2024-05-0719

0 引言

神经网络,也称为人工神经网络(Artificial Neural Networks,ANN),是模仿生物神经网络进行信息处理的算法模型,是深度学习的基础。随着科技发展,人类生活中产生的数据量呈爆炸式增长。神经网络能够处理大量高维数据,具备强大的鲁棒性和泛化能力,能有效应对大数据时代的复杂挑战,为各行业提供精准、智能的解决方案(Hinton and Salakhutdinov, 2006;LeCun et al., 2015)。卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习中的一类重要算法,通过卷积层和池化层提取数据特征并建模空间结构信息。凭借参数共享和局部连接的特性,CNN能高效处理图像数据,在图像分类、目标检测和图像分割等计算机视觉任务应用中表现突出。

CNN的不断发展和广泛应用已扩展至包括大气科学在内的多个领域,引起了广泛关注(刘雅忱, 2020;Schultz et al.,2021;刘亚伟等, 2021)。在大气科学中,CNN被应用于气象目标识别、遥感图像处理、空气质量监测、数值模式改进和天气气候预测等方面,尽管多数应用仍处于探索阶段,但显示了潜在的可行性和优越性。然而,针对CNN在大气科学中的应用研究较少,多数侧重于更宽泛的深度学习概念。本文首先介绍CNN的发展历程、基本结构和训练方法;然后从图像特征的气象目标识别、极端事件检测、数值模式改进和纯数据驱动的预报等方面综述其在大气科学领域的应用;最后,指出CNN在大气科学领域应用的现有挑战并展望未来,提出具有实际意义的建议和策略,以促进CNN在大气科学领域应用的进一步发展。

1 卷积神经网络的基本介绍

1.1 发展历程

CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息。接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱。20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础。随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起。然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注。此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1)。研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017)。同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生。神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流。

图1

图1   21世纪CNN发展历程

Fig.1   Development of CNN in the 21st century


与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战。目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制。此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等。

1.2 基本结构

CNN的基本结构包括输入层、卷积层、池化层、全连接层和输出层(图2)。在CNN中,卷积层和池化层通常交替出现,卷积层是CNN区别于其他类型神经网络的关键特征。

图2

图2   卷积神经网络基本结构

Fig.2   The basic structure of convolutional neural networks


卷积层由多张特征图和多个卷积核组成,每张特征图上包含若干神经元。这些神经元通过卷积核与前一层特征图中的局部区域连接(图3),卷积核是一个权重矩阵,用于特征提取。在进行卷积操作时,每个输出特征图上神经元的值由对应的输入特征图的局部区域与卷积核进行互相关运算后再加上一个偏置项得到,这个偏置项有助于调整激活函数的激活阈值。最后,通过激活函数对结果进行映射,以便引入非线性,使网络能处理更复杂的数据模式。卷积操作及激活过程的表达式如下:

ykl=Fi=1fj=1fωijx[i+sk-1][j+sl-1]+b

式中:ykl为输出特征图第k行第l列处的特征值;ωij为卷积核上第i行第j列处的权重;x[i+sk-1][j+sl-1]为输入特征图第[i+sk-1)]行第[j+sl-1)]列处的特征值;s为卷积步长;f为卷积核大小;b为偏置项;F为激活函数。

图3

图3   2D单通道卷积

Fig.3   The 2D single-channel convolution


常见的激活函数有逻辑函数(sigmoid function)、双曲正切函数(hyperbolic tangent function,tanh)和修正线性单元(Rectified Linear Unit,ReLU)(图4)。sigmoid函数是非零均值的,这可能导致输出偏移,进而使模型收敛速度减慢。而tanh函数虽然解决了非零均值的问题,但与sigmoid一样均为饱和函数,其导数在自变量绝对值很大时接近零,这可能引发梯度消失问题。相比之下,ReLU函数是非饱和的,能有效防止梯度消失,从而加速模型收敛。ReLU将所有负值输入映射为零,这种稀疏激活的性质被认为在生物学上是合理的(Glorot et al., 2011)。然而,ReLU也存在潜在问题,如神经元坏死现象,即若初始化后输入分布不理想,则训练过程中某些神经元可能永不被激活,导致权重无法更新(Maas et al., 2013)。

图4

图4   三种常见激活函数图像

Fig.4   Three common activation function images


为应对ReLU的缺陷,研究者提出了多种变体,如LReLU、PReLU和RReLU(He et al., 2015; Xu et al., 2015),这些变体试图保持ReLU的优点同时减少其缺点。此外,结合ReLU和sigmoid函数优点的指数修正单元(Exponential Linear Unit,ELU)及其变体CELU、SELU(Clevert et al., 2015;Barron, 2017;Klambauer et al., 2017)也被开发出来,以提高训练效率。

池化层是CNN中用于特征降维的基本结构,其特征图上的神经元通过池化窗口与前一层的局部区域相连,通过减小特征图的尺寸来简化信息,但不改变特征图数量。与卷积层类似,池化窗口在输入特征图上按一定步长进行滑动采样,但一般不重叠。常见的池化方法有平均池化和最大池化(图5),即分别取池化窗口内的平均值或最大值作为输出。此外,还有如混合池化、随机池化和全局池化等更多池化方法(Lin et al., 2013;Zeiler and Fergus, 2013;Yu et al., 2014),这些方法在特定应用中可能提供额外的优势。

图5

图5   最大池化

Fig.5   Max pooling


在CNN模型的输出层前,通常会存在一个或多个全连接层,这些层的作用是整合卷积层和池化层所提取的信息。在全连接层中,每个神经元都通过权值矩阵及偏置向量与前一层的所有神经元连接,并通过激活函数进行激活,全连接操作的具体表达式为:

y=FWx+b

式中:Wn×m维的权值矩阵;bm维的偏置向量。图6为两层全连接层结构。

图6

图6   全连接层(两层)

Fig.6   Fully connected layer(two layers)


然而,全连接层存在参数量过大的缺陷,易导致训练缓慢、模型过拟合。为解决这些问题,Dropout技术(Hinton et al., 2012)被广泛应用,其核心理念是在训练过程中随机让部分神经元失活(即输出为零),从而使得网络结构在每次迭代训练中发生细微改变,降低神经元间的相互依赖,从而增强模型的泛化能力。此外,一些较新的网络模型如网中网(Network In Network,NIN)、GoogLeNet和ResNet等采用全局平均池化替代全连接层,有效减少了模型的参数量(Lin et al., 2013;Szegedy et al., 2015;He et al., 2016)。

1.3 训练方式

神经网络的权重参数(包括卷积核及全连接层中的权重)通过训练过程获得。CNN的主要训练方式为监督学习,即向网络提供标注了真值的数据。训练过程中,数据输入网络模型,经过前向传播产生输出结果,然后计算输出结果与真值的误差,通过这种误差调整模型参数,进而减少误差直至模型收敛(图7)。误差的大小由损失函数确定,参数更新通过反向传播算法(Back Propagation,BP)实现,该算法的核心是利用链式法则将损失函数对各模型参数的梯度反向传播,从而根据梯度调整参数以最小化损失函数。

图7

图7   神经网络训练流程

Fig.7   Neural network training process


数据对于网络模型的训练至关重要,训练数据不足可能导致模型无法收敛,容易陷入局部最优解和过拟合等问题。为减少这些问题,可以采用数据增强方法,即在不增加数据实体的前提下,通过变换或加工原始数据来提高数据量和质量,从而提升模型的泛化能力(Krizhevsky et al., 2017)。然而数据增强可能引入片面噪声,导致过拟合。此时,应调整数据增强方法或选择最佳增强数据子集以提高模型的泛化能力。常用的数据增强方法包括几何变换(如平移、旋转、缩放和剪裁)、颜色抖动和强度变换等(孙书魁等,2024)。

损失函数(Loss function)是衡量模型输出与真实标签差异的指标。根据任务类型,损失函数可分为回归损失(如平均绝对误差和均方误差)和分类损失(如交叉熵)。邓建国等(2020)整理了在监督学习中被广泛应用的损失函数。

在模型训练中,优化器(Optimizer)指导损失函数的各个参数按正确方向和适当大小更新,以寻找损失函数的全局最小值,这一过程类似于在连绵不绝的山川中寻找最低点,而寻找的方法就是梯度下降法,梯度下降法是大多数优化器的核心,根据反向传播的梯度值决定下降方向,根据学习率调整下降距离。常见的优化器包括随机梯度下降(Stochastic Gradient Descent,SGD)、动量随机梯度下降(Stochastic Gradient Descent with Momentum,SGDM)、Nesterov加速梯度法(Nesterov Accelerated Gradient,NAG)、自适应梯度法(Adaptive Gradient Algorithm,AdaGrad)、均方根传播(Root Mean Square Propagation,RMSProp)、自适应动量估计(Adaptive Moment Estimation,Adam)、Nesterov加速自适应动量估计(Nesterov-accelerated Adaptive Moment Estimation,Nadam)等。

模型中第t次迭代时待优化的参数θt通过SGD(Sinha and Griscik, 1971)进行更新以得到θt+1

θt+1=θt-αgt

式中:α为学习率;gt为第t次迭代时的随机抽样梯度。

SGD是一种简单有效的优化方式,但其在陡峭方向可能出现震荡,而在平缓方向则进展缓慢,这可能导致收敛速度慢且容易陷入局部最优解或鞍点。为抑制这种震荡,SGDM在SGD的基础上引入一阶动量mt

mt=βmt-1+1-βgt

式中:β为取值范围在区间(0,1)上的随机数;用mt代替(3)式中的gt。此处的一阶动量为各个时刻梯度方向的指数移动平均值,使得下降方向不仅由当前点的梯度决定,还受到此前累积的下降方向的影响。一阶动量的常用经验值β为0.9,这意味着下降方向主要受之前累积方向的影响,使得陡峭方向的梯度互相抵消,平缓方向的梯度逐渐累积,从而加速收敛(图8)。

图8

图8   SGD(a)与SGDM(b)对比(引自Yu et al., 2014

Fig.8   Comparison of SGD (a) and SGDM (b)(from Yu et al., 2014


尽管SGDM加速了收敛,但仍可能陷入局部最优解。NAG方法(Nesterov, 1983)提供了解决方案,通过计算累积梯度方向下降后的梯度作为当前下降方向,有利于跳出局部最优解。上述优化器的学习率在优化过程中是恒定的,AdaGrad方法(Duchi et al., 2011)通过引入二阶动量vt来调整学习率αt

vt=τ=1tgτ2αt=αt-1ϵ+vt

式中:ϵ为避免分母为零的小量。AdaGrad的步长在陡峭方向很小,而在平缓方向变大,加速模型收敛。然而,由于未考虑迭代衰减,随着二阶动量的不断增大,学习率逐渐趋近于0,可能导致训练提前结束。RMSProp方法(Tieleman and Hinton, 2012)引入衰减系数使二阶动量成为固定时间窗口内的累积,防止学习率过早衰减。但随着时间窗口的变化,数据可能存在巨变,使得vt时大时小,不再是单调变化,可能导致训练后期学习率的震荡,模型无法收敛。Adam和Nadam方法(Kingma et al., 2014;Dozat, 2016)结合上述两类优化器,引入一阶和二阶动量,关注梯度方向的同时调整学习率大小,为达到最优性能提供了均衡方法。Ruder(2016)对上述优化器进行了更为详细的介绍。

2 卷积神经网络在大气科学中的应用

大气科学涉及许多复杂的空间非线性问题,CNN通过其优秀的特征提取和空间建模能力,为解决这些问题提供了新途径。从基于图像特征的气象目标识别到大数据集中的极端事件检测,再到数值模式的改进以及纯数据驱动的预报,CNN在大气科学的多个方面应用不断深化,为该领域的发展注入了新活力。

2.1 基于图像特征的气象目标识别

最初受到关注的应用是基于图像特征的气象目标识别。传统图像识别方法基于人工进行特征提取,这些方法不仅复杂、依赖人工经验,且泛化能力有限。相比之下,CNN可以自动提取图像中的特征,鲁棒性强,泛化能力好,且可实现端到端识别。在大气观测中不仅有传统光学图像,卫星和雷达数据也被视为图像资源,CNN能有效识别云、雨、雪、太阳辐照度、能见度、颗粒物浓度等目标。

2.1.1 基于云图的识别分类

云是大气中的重要组成部分,其特性如存在与否、位置、高度和覆盖率等对天气预报具有重要意义。地基云观测为气象研究提供了更全面的云微观结构信息,其中,地基云自动分类技术是关键,Shi等(2017a)利用视觉几何组网络(Visual Geometry Group Network,VGG)对地基云图进行特征提取并分类,浅层特征与深层特征在云分类任务中的表现相当。这可能是因为云分类中精细的纹理信息比高级语义信息更为重要,VGG提取的浅层特征足以描述云的纹理信息,且其分类效果优于多数传统方法。Zhang和Liu等(2018)构建了卷云、积云、层云、雨云数据集(Cirrus Cumulus Stratus Nimbus, CCSN),将云基于气象标准分为10类,首次将飞行轨迹纳入地基云分类任务,并使用该数据集训练得到一个简单有效的CNN模型——CloudNet。此外,Zhao等(2019)利用3D-CNN模型对连续时间间隔的地基云图进行特征提取,并成功预测了太阳直接辐射的变化,其效果超越了传统方法。Byun等(2023)提出了一个先分类后回归的CNN模型用于预测日间降水量,该模型先判断是否会有降水,若无则输出降水量为0,有则继续预测降水量。此种策略不仅提高了预测准确性,还缩短了推理时间。

随着航天遥感技术的进步,基于气象卫星的云层覆盖及地表特征的卫星云图资料不断增加,有效弥补了常规观测资料的不足。然而,同地基云观测类似,卫星云图中的云检测和分类也是气象领域中的难题。传统的检测方法如阈值法由于卫星云图的复杂性难以设定通用阈值,因此检测精度并不理想。CNN逐渐被应用于卫星云图的云检测和分类任务中,如夏旻等(2018)将卫星云图分割成多张小图,并利用CNN进行分类,再将分类结果插值到卫星云图原位置上。此方法忽略了云作为连续整体的特性,分类结果未考虑全局信息。Jiang等(2022)开发了基于U-Net的智能云分类模型,该模型能够考虑卫星云图的空间全局信息,实现像素级的云检测和分类。除了云检测与分类,Li和Momen(2021)利用卫星云图进行天气事件如对流单体、沙尘暴、热带气旋、对流云街和野火的分类,比较了VGG-16、VGG-19、Inception V3和ResNet50的效果,发现Inception V3因融合了多尺度信息在这些模型中总体效果最好。热带气旋作为一种强大的天气系统,其观测信息主要依靠卫星云图。Pradhan等(2018)使用CNN模型对热带气旋的卫星云图进行分类,并根据模型输出的两个最高概率的可能类别估计其强度,此方法虽然简单有效,但略显粗糙。因此,Dawood等(2020)提出了基于CNN的飓风强度估计模型,将基于卫星云图的热带气旋强度估计视为一个回归任务,以获得更精确的结果。

2.1.2 基于雷达图像的短临预报

对于0~6 h强对流天气的短临预报方法主要包括雷达回波外推和数值模式。模式预报在短时间内预报精度较差,因此主要采用雷达回波外推预报。尽管传统的光流法在降水临近预报上取得了不错的效果(曹春燕等,2015),但仍存在运动假设不准确和回波质量要求高的问题。CNN作为一种新方法在雷达回波外推中展现了良好的应用前景。Shi等(2015)将降水临近预报视作雷达图的时空序列预测问题,提出了卷积长短期记忆网络(Convolutional Long Short-Term Memory,ConvLSTM)模型对雷达回波进行外推,该模型结合了CNN的空间信息编码和LSTM的时间依赖性编码,实现了时空双重预测,并优于光流法。之后,Shi等(2017b)进一步提出了轨迹门控循环单元(Trajectory Gated Recurrent Unit,TrajGRU)模型,将LSTM替换为更简洁高效的GRU,以更好地捕捉图像的运动轨迹(图9)。越来越多基于CNN和RNN结合的时空预测模型如PredRNN++、MIM、CrevNet和PhyDNet被提出,袁凯等(2023)的研究显示这些模型在预报雷达回波的强度变化和运动方向上均优于传统方法,展示了良好的应用前景。

图9

图9   ConvLSTM(a)和 TrajGRU(b)中卷积连接的差异(引自Shi et al., 2017b

Fig.9   Differences in the way of convolution layers connections in ConvLSTM (a) and TrajGRU (b)(from Shi et al., 2017b


2.1.3 基于传统光学图像的识别监测

Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%)。然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014)。因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型。此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测。由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征。袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性。

图10

图10   天空图像三通道重构流程图(引自Yao et al., 2022

Fig.10   Reconstruction process of three channels of sky image (from Yao et al., 2022


2.2 大数据集中的极端事件检测

在极端天气事件检测方面,传统方法主要基于物理变量的主观阈值,泛化能力较差。CNN能从大数据集中提取特征,进行空间关联性建模,具有更强的泛化能力和鲁棒性。

Liu等(2016)使用CNN在大数据集中检测热带气旋、锋面和大气河等极端事件,其中锋面的检测精度相对较低(89.4%),可能与其结构特征在二维场上不明显有关,后续可加入高度信息以提高检测精度。此外,CNN也被应用于通用大气模式CAM5(Community Atmospheric Model v5)的输出数据,取得了较好的预测效果(Racah et al., 2016;Kurth et al., 2018)。

上述工作所用到的数据标签(即极端事件的真实值)主要通过极端气候分析工具包(Toolkit for Extreme Climate Analysis,TECA)处理获得,其结果是基于统计分析得出的,因此存在一定误差和不确定性,直接将这些输出作为CNN的标签可能会引入不准确性和噪声。更好的做法是结合人工标注、使用其他相关数据集,或融合领域专家的知识来获取数据标签。例如,Lagerquist等(2019)基于人工标注的数据集,利用CNN进行锋面的识别和分类,其识别精度超越了传统数值模拟的锋面分析方法。

2.3 对数值模式的改进

数值天气预报(Numerical Weather Prediction,NWP)是现代天气预报业务的核心,但受初始场误差、有限模式分辨率及不完备物理参数化方案等因素的影响,模式预报存在系统误差(Boeing, 2016)。CNN不依赖于复杂的物理框架,能够提取数据中的空间信息并拟合目标函数,具有信息处理容量大、推理计算速度快等优势。已有研究尝试将CNN与NWP结合,用于改进NWP的资料同化、参数化方案以及后处理等方面,并显示出良好的应用前景。

2.3.1 辅助资料同化

资料同化是将高质量的大气观测数据有效融合到数值天气预报模式的初猜场中,以提升模式的初始条件精度。然而,气象观测数据量增长迅速,已远超同期同化系统的处理能力,迫切需要方法上的革新,CNN的出现为改善资料同化过程带来了新的机遇。

Brajard等(2020)提出了一种结合集合卡曼滤波和CNN的双向互反馈耦合方案(图11),用以改进资料同化的效果。然而,该方法对观测数据的噪音和数量非常敏感,预测技能可能因严重噪音干扰或数据量不足而显著降低。此外,该模型耦合了资料同化方法和深度学习模型,计算复杂度增加,且并未应用到高维气象数值天气预报模式中。樊许磊(2022)尝试通过CNN改善星载微波观测亮温数据的质量,以解决微波辐射计天线的观测足迹与数值模式网格覆盖区域的空间不匹配问题,提高同化分析场的精度。

图11

图11   资料同化和深度学习相结合的双向互反馈耦合流程图(引自Brajard et al., 2020

Fig.11   Two-way mutual feedback coupled flow chart combining data assimilation and deep learning (from Brajard et al., 2020


2.3.2 替代参数化方案

由于数值模式无法直接模拟所有尺度上的物理过程,特别是在网格尺度受限和对大气运动物理过程理解不完备的情况下,次网格过程如湍流、边界层混合、云微物理等通常需通过参数化方案描述。这些方案将复杂的物理过程简化为一组参数,可能无法捕捉一些关键的细节和非线性过程,从而产生误差。近年来,CNN被尝试用于取代传统的次网格物理过程参数化子模块,如对流、辐射参数化方案及行星边界层参数化,展现出提高数值天气预报模型的物理过程计算效率和精度的潜力。

Wang和Tan(2023)基于1D-CNN开发了一种新的热带气旋边界层湍流通量参数化方案的深度学习模型,该模型的性能明显优于传统的YSU方案(Yonsei University Scheme)。陈锦鹏等(2024)选取了包括CNN在内的4种机器学习算法模拟湿物理参数化方案,发现这些模型均能较好地模拟传统湿物理参数化方案的温湿效应。但这些研究仅进行了离线检验,并未实际应用于模式的在线运行。Wang等(2022)利用残差网络拟合超参数化大气环流模式(Super-parameterized Community Atmosphere Model, SPCAM)中云解析模型的结果,以代替传统CAM5中的湿物理和辐射过程的参数化方案,并开发了一个耦合器用于数值模式和神经网络的信息传递,提出了神经网络参数化大气环流模式(Neural Network Integrated Community Atmosphere Model, NNCAM),实现了神经网络参数化的在线运行(图12),模拟效果接近SPCAM,明显优于传统的CAM5,且在计算量上大幅减少。

图12

图12   SPCAM(a)和NNCAM(b)的工作流程图(引自Wang et al., 2022

Fig.12   Workflow diagram of the SPCAM (a) and NNCAM (b)(from Wang et al., 2022


目前,使用CNN代替参数化方案的研究仍处于初级阶段。现有研究所用的训练数据多为模式输出,数据本身存在误差,后续研究可尝试使用更高质量的数据进行训练,以提高网络精度。此外,CNN本身也存在误差,而模式在时间步长上不断积分,网络模型和动力模式的不断耦合可能导致误差累积和模型漂移。如何减小误差并确保神经网络参数化模式能长期稳定运行,未来需要更深入的研究。

2.3.3 发展后处理方法

大气运动的混沌性以及数值模式的不完美,使得数值天气预报偏差不可避免。因此,发展模式后处理方法以减少预报偏差,是提高数值天气预报水平的关键。除了传统的统计后处理方法,CNN也逐渐应用于数值预报的后处理。

CNN已应用于数值模式输出的订正。陈锦鹏等(2021)利用CNN对华南区域的中尺度模式预报产品进行降水等级的站点订正,输入以站点为中心的周围网格点上的多个物理量,以站点观测的降水等级数据为真值进行模型训练。结果显示,CNN模型的订正效果优于传统的频率匹配法,但站点订正由于站点空间分布的不均匀性,对预报结果的改进有限。Han等(2021)基于CNN的语义分割模型对欧洲中期天气预报中心的集合预报系统的预报产品进行全网格点订正,采用某一物理量的预报产品和当前时刻的再分析场作为输入,将该物理量在预报时刻的再分析场作为真值,对模型进行训练,实现了2 m温度、2 m相对湿度、10 m风速及10 m风向的有效订正,效果明显优于传统方法。

此外,量化预报的不确定性也是提升预报水平的重要途径。集合预报为量化不确定性提供了便利,但计算量过大。Scher和Messori(2018)基于预报的不确定性主要取决于初始大气状态固有的可预测性假设,使用集合预报的历史资料训练出一个CNN模型,虽然该模型的精度未超越集合预报方法,但其推理速度远快于集合预报,展示了良好的泛化特征和预报效果。Grönquist等(2021)在Scher和Messori的研究基础上加入了集合预报中性成员的轨迹和少量预报成员的轨迹扩散作为CNN的输入,在保证推理精度的同时减少推理计算量,以少量集合成员实现了比原始集合成员更好的不确定性量化效果,实现了面到面的预测。

数值模拟的计算成本高,且受分辨率限制,目前数值模式的最高空间分辨率大约为2 km。然而,许多天气和气候影响发生在更小的空间尺度上,粗分辨率的数值模式常无法准确捕捉局部地形的天气演变。因此,需通过降尺度将数值模式输出提高到更细的空间分辨率。CNN在空间降尺度上已被广泛应用,Vandal等(2017)提出的深度降尺度(Deep Statistical Downscaling,DeepSD)技术,首次将图像超分辨率(Super-Resolution,SR)技术应用于全球气候模式输出的空间降尺度,结合地形高度实现了降水数据的空间降尺度;Baño-Medina等(2020)的评估表明,CNN降尺度方法通过引入非线性关系,能更好地模拟气象因子之间的相互作用,提高模型对极端情况的预测能力,优于传统方法。

2.4 纯数据驱动的预报

深度学习领域发展迅速,基于深度学习的纯数据驱动的天气和气候预报模型展现出良好的应用潜力。传统的数值天气预报依赖于复杂的物理方程和大规模计算,而CNN通过分析大量历史气象数据来进行预测,能显著减少计算成本,提高预报时效性。

Scher(2018)利用CNN模拟了一个简单的全球环流模式(General Circulation Model,GCM),使网络能够预报几个时间步长后的全球500 hPa位势高度。网络能够在没有外在能量或守恒条件的约束下,长期稳定运行,不产生模型漂移,证明了纯数据驱动的CNN天气和气候预报的可行性。Weyn等(2019)使用美国气候预测系统(Climate Forecast System,CFS)再分析数据训练多个基于CNN的深度学习模型来预报北半球特定区域的500 hPa位势高度,预报效果明显优于持久性预报、气候学预报及基于正压涡度方程的简单模式预报。Ham等(2019)基于CNN提出了一个ENSO预报模型,实现了长达一年半的高精度预报,模型对Niño3.4指数的全季节相关技巧远超现有最先进的动力预报系统。此外,CNN在预报海表温度的纬向分布方面表现优异,克服了动力模式的局限性。魏森涛等(2023)使用CNN对土壤湿度变化进行预测,实现了对土壤湿度提前6个月的精确预测,该模型不仅可用于土壤干旱的预报,也可用于生成数值模式的初边界场。

3 现存挑战与未来展望

尽管CNN已被尝试应用于大气科学问题的研究,目前仍面临诸多挑战,如气象数据的复杂性和稀缺性、模型结构需求改进和模型可解释性较差等问题。然而,随着深度学习技术的持续进步和跨学科融合的不断深入,越来越多的理论和方法被开发出来以克服这些挑战,这将为提升极端天气气候事件的预测水平提供新途径。

3.1 数据的复杂性和稀缺性

大气科学领域,数据通常具有高维性、复杂性和不均衡性。关键变量的数据可能稀缺或噪声较多,这使得训练高精度的CNN模型变得更加困难。为了应对数据的高维性和复杂性,可以探索更高效的特征选择和降维方法。例如,自动编码器和主成分分析(陈锦鹏等, 2021)可以帮助提取主要特征并降低维度,从而降低计算复杂度。此外,基于领域知识的特征工程也能显著提升模型性能,通过合理选择和组合特征,使模型更易捕捉大气过程中的关键模式。针对数据样本不平衡问题,重采样技术(Zhou et al., 2019)及代价敏感学习方法可调整训练过程,使模型更关注不平衡数据中的稀有事件。在高质量数据稀缺的情况下,除加速构建高质量数据集外,也应开发更有效的数据预处理方法,如数据清洗、去噪、缺省值填补等,以及利用数据增强技术生成更多样化的代表性数据集。

3.2 模型结构需求改进

CNN的局部连接和权值共享特性使其在处理图像等网格结构数据时具有优势。新型视觉Transformer模型如Swin-Transformer(Liu et al., 2021)结合了CNN和Transformer的特性,其窗口注意力机制能更好地处理多尺度特征和局部相关性。此外,Kolmogorov-Arnold Networks(KAN)网络(Liu et al.,2024)通过使用一组单变量函数及其组合来有效逼近和表示高维函数,显示出高参数利用效率,可解释性更强。这种方法可以更好地与物理规律相结合,提高气象问题建模的准确性。

尽管CNN能有效处理空间特征(Scher and Messori,2019),但其在处理球面或复杂地形的气象场数据时可能受限。例如,CNN对特征的相对位置可能不敏感,这在传统的图像识别中具有优势,但在对相对位置非常敏感的气象场中并不适用。针对这一问题,已有研究尝试通过引入胶囊神经网络(Capsule Neural Network,CapsNet)(Sabour et al., 2017)和球面CNN(Spherical CNNs)(Cohen et al., 2018)来解决,前者引入胶囊的概念替代传统神经元,通过向量表示捕捉物体的相对位置关系,而后者更适应球面投影数据。随着深度学习的快速发展,新模型和技术的出现为解决复杂气象问题提供了新的工具和方法,有望使CNN在大气科学领域的应用更加准确和高效。

3.3 可解释性问题

尽管CNN在大气科学问题的研究中显示出应用潜力,但其作为一个黑箱模型的内部工作机制难以解释,这在科学研究和实际应用中可能构成障碍,特别是在需要理解模型预测依据的情况下。因此,发展可解释性人工智能(Explainable Artificial Intelligence,XAI)技术变得尤为重要。这包括通过可视化工具和解释算法提高模型的透明度,帮助研究人员和决策者更好地理解模型的行为和预测结果。例如Deconv方法(Zeiler and Fergus, 2014)能够将CNN每层得到的最大激活的特征图映射回输入层的像素空间,揭示网络每层学习到的特征;Grad-CAM方法(Selvaraju et al., 2020)利用CNN的梯度信息生成热力图,突出显示输入图像中对特定预测结果贡献最大的区域。

已有研究者探索使用可解释人工智能来解决CNN在气象领域的可解释性问题。例如,Lagerquist等(2019)通过对CNN进行反卷积来可视化滤波器,发现不同滤波器对不同气象要素响应不一,从而捕获锋面系统的多元特征;Gagne等(2019)通过分析特征重要性和进行特征优化来解释CNN的结果,发现CNN学习到的环境和雷暴形态学信息与冰雹增长的理论一致。随着XAI技术与CNN的进一步融合,预计将出现更多创新的解释方法和工具,能更全面、更准确地揭示CNN的工作原理,推动其在大气科学领域的广泛应用和发展。

4 结语

自21世纪以来,CNN在大数据时代的背景下不断发展和创新,通过模型的精准化、轻量化、设计自动化、特征可视化和对象精细化等,理论方法日益成熟,在计算机视觉任务中取得了优异的表现。CNN逐渐应用于大气科学领域,包括基于图像特征的气象目标识别、大数据集中的极端事件检测、与数值模式的结合应用以及纯数据驱动的预报等。尽管面临高质量数据稀缺、模型结构需改进和可解释性问题等多重挑战,但随着技术的不断进步和跨学科合作的深化,CNN将在大气科学领域发挥更加重要的作用。

参考文献

曹春燕, 陈元昭, 刘东华, , 2015.

光流法及其在临近预报中的应用

[J]. 气象学报, 73(3): 471-480.

[本文引用: 1]

陈锦鹏, 冯业荣, 黄奕丹, , 2024.

利用机器学习模拟湿物理参数化方案

[J]. 气象学报, 82(1): 113-126.

[本文引用: 1]

陈锦鹏, 冯业荣, 蒙伟光, , 2021.

基于卷积神经网络的逐时降水预报订正方法研究

[J]. 气象, 47(1): 60-70.

[本文引用: 2]

邓建国, 张素兰, 张继福, , 2020.

监督学习中的损失函数及应用研究

[J]. 大数据, 6(1): 60-80.

DOI      [本文引用: 1]

监督学习中的损失函数常用来评估样本的真实值和模型预测值之间的不一致程度,一般用于模型的参数估计。受应用场景、数据集和待求解问题等因素的制约,现有监督学习算法使用的损失函数的种类和数量较多,而且每个损失函数都有各自的特征,因此从众多损失函数中选择适合求解问题最优模型的损失函数是相当困难的。研究了监督学习算法中常用损失函数的标准形式、基本思想、优缺点、主要应用以及对应的演化形式,探索了它们适用的应用场景和可能的优化策略。本研究不仅有助于提升模型预测的精确度,而且也为构建新的损失函数或改进现有损失函数的应用研究提供了一个新的思路。

樊许磊, 2022. 用于资料同化预处理的卷积神经网络亮温重映射技术[D]. 武汉: 华中科技大学.

[本文引用: 1]

洪思弟, 赖绍钧, 林志玮, , 2020.

结合深度卷积网络及光学图像的降雨强度识别

[J]. 福建农林大学学报:自然科学版, 49(4): 567-576.

[本文引用: 1]

刘雅忱, 2020.

人工智能下深度学习在气象预报中应用综述

[J]. 计算机产品与流通(11),121.

[本文引用: 1]

刘亚伟, 郭辰婧, 赵绘萍, 2021.

卷积神经网络的发展及其在肿瘤影像学中的应用

[J]. 吉林医药学院学报, 42(4): 290-292.

[本文引用: 1]

孙书魁, 范菁, 孙中强, , 2024.

基于深度学习的图像数据增强研究综述

[J]. 计算机科学, 51(1): 150-167.

DOI      [本文引用: 1]

近年来,深度学习在图像分类、目标检测、图像分割等诸多计算机视觉任务中都取得了出色的性能表现。深度神经网络通常依靠大量的训练数据来避免过拟合,因此,出色的性能背后离不开海量图像数据的支持。但在很多实际应用场景中,通常很难获取到足够的图像数据,并且数据的收集也是昂贵且耗时的。图像数据增强的出现很好地缓解了数据不足的问题,作为增加训练数量、提升数据质量和多样性的有效途径,数据增强已成为深度学习模型在图像数据上成功应用的必要组成部分,理解现有算法有助于选择适合的方法以及开发新算法。文中阐述了图像数据增强的研究动机,对众多的数据增强算法进行了系统分类,详细分析了每一类数据增强算法;随后指出数据增强算法设计时的一些注意事项及其应用范围,并通过3种计算机视觉任务证明了数据增强的有效性;最后总结全文并对数据增强未来的研究方向进行展望。

魏森涛, 王澄海, 张飞民, , 2023.

基于土壤温、湿度记忆性的土壤湿度预测方法研究

[J]. 干旱气象, 41(5): 783-791.

DOI      [本文引用: 1]

土壤温、湿度是陆面过程的重要参数,也是大气数值模式下边界条件的重要物理参量。由于土壤湿度的观测站点较少,土壤温湿度的空间资料较少,另外,土壤温湿度作为干旱预测的主要内容,需要知道未来时刻的土壤温湿度变化。因此,如何获得未来时刻土壤温湿度的时空变化具有重要意义。本文根据土壤湿度的记忆性特点,通过机器学习方法试图获得模式中土壤湿度的时空变化。采用卷积神经网络算法(Convolutional Neural Networks,CNN),考虑土壤温度对土壤湿度的影响,选取ERA5 0~7、7~28、28~100、100~289 cm深度层土壤温、湿度作为预测因子,对月、季尺度上土壤湿度变化进行预测。结果表明,本方法能提前6个月对土壤湿度进行可靠有效地预测;预测的浅层(0~28 cm)与深层(28~289 cm)土壤湿度平均偏差分别小于0.05、0.02 m3·m-3;在湿润区,平均偏差基本在0.03 m3·m-3以内,表现出较好的效果。本文的预测方法和结果,既可用于土壤干旱的预测,也可作为数值模式初边界场的形成。

夏旻, 申茂阳, 王舰锋, , 2018.

基于卷积神经网络的卫星云图云量计算

[J]. 系统仿真学报, 30(5): 1 623-1 630.

[本文引用: 1]

袁凯, 庞晶, 李武阶, , 2023.

深度学习模型在2021年汛期武汉市雷达回波临近预报中的应用评估

[J]. 干旱气象, 41(1): 173-185.

DOI      [本文引用: 1]

近年来,人工智能技术在图像识别领域取得了突破性进展,为探寻人工智能模型在武汉地区雷达回波临近预报中的应用价值,本文利用湖北武汉市2015—2020年雷达回波和降水量观测资料,对PredRNN++、MIM、CrevNet和PhyDNet 4种深度学习模型进行雷达回波临近预报训练,并基于2021年汛期雷达回波资料进行雷达回波临近预报。在此基础上,通过降水强度和降水面积指数筛选降水过程,并以均方误差(Mean Square Error, MSE)、结构相似性指数(Structural Similarity Index Measurement, SSIM)、命中率(Probability of Detection, POD)、空报率(False Alarm Rate, FAR)和临界成功指数(Critical Success Index, CSI)为指标,检验评估上述4种深度学习模型和光流法对2021年汛期武汉地区雷达回波的临近预报性能。结果表明:(1)整体来看,MIM模型的MSE最小、POD最高,MIM和PredRNN++模型的SSIM并列最高;所有深度学习模型的FAR均低于光流法,且PhyDNet模型的FAR最低;除CrevNet模型外,其余3种深度学习模型的CSI均高于光流法,且MIM模型的CSI最高。(2)预报的前12 min,光流法的CSI最高,而在18~120 min MIM模型的CSI最高,显示了深度学习模型长预报时效的优势。(3)随着回波强度增加,深度学习模型和光流法的POD和CSI均迅速降低,而FAR光流法与各模型则表现出不同的变化规律。(4)随着区域性降水强度增加,深度学习模型的预报能力均先降低后明显增强,而光流法对降水强度变化的敏感性较弱,故在强降水背景下深度学习模型的CSI较光流法增幅最大;对于局地一般对流性降水过程,所有深度学习模型和光流法的预报能力均大幅降低。(5)暴雨个例分析结果表明,深度学习模型不仅具备一定回波强度变化的预报能力,而且对回波运动的预报能力也明显高于光流法,展示了深度学习模型良好的应用前景。

袁雅涵, 王烁, 王文青, , 2023.

基于深度学习的积层混合云对流泡降水粒子特征研究

[J]. 干旱气象, 41(6): 933-943.

[本文引用: 1]

BADRINARAYANAN V, KENDALL A, CIPOLLA R, 2017.

SegNet: A deep convolutional encoder-decoder architecture for image segmentation

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(12): 2 481-2 495.

[本文引用: 1]

BAÑO-MEDINA J, MANZANAS R, GUTIÉRREZ J M, 2020.

Configuration and intercomparison of deep learning neural models for statistical downscaling

[J]. Geoscientific Model Development, 13(4): 2 109-2 124.

[本文引用: 1]

BARRON J T, 2017.

Continuously differentiable exponential linear units

[J/OL]. (2017-04-24)[2024-04-17]. https://arxiv.org/abs/1704.07483.

URL     [本文引用: 1]

BOEING G, 2016.

Visual analysis of nonlinear dynamical systems: Chaos, fractals, self-similarity and the limits of prediction

[J]. Systems, 4(4): 37. DOI: 10.3390/systems4040037.

[本文引用: 1]

BRAJARD J, CARRASSI A, BOCQUET M, et al, 2020.

Combining data assimilation and machine learning to emulate a dynamical model from sparse and noisy observations: A case study with the Lorenz 96 model

[J]. Journal of Computational Science, 44: 101171. DOI: 10.1016/j.jocs.2020.101171.

[本文引用: 3]

BYUN J, JUN C, KIM J, et al, 2023.

Deep learning-based rainfall prediction using cloud image analysis

[J]. IEEE Transactions on Geoscience and Remote Sensing, 61: 1-11. DOI: 10.1109/TGRS.2023.3263872.

[本文引用: 1]

CHEN L C, PAPANDREOU G, KOKKINOS I, et al, 2018.

DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4): 834-848.

[本文引用: 1]

CLEVERT D A, UNTERTHINER T, HOCHREITER S, 2015.

Fast and accurate deep network learning by exponential linear units (ELUs)

[C/OL]// International Conference on Learning Representations (ICLR). Caribe Hilton, San Juan, Puerto Rico. (2015-11-23)[2024-04-17]. https://arxiv.org/abs/1511.07289.

URL     [本文引用: 1]

COHEN T S, GEIGER M, KOHLER J, et al, 2018.

Spherical CNNs

[J/OL]. (2018-01-30)[2024-04-17]. https://arxiv.org/abs/1801.10130.

URL     [本文引用: 1]

DAWOOD M, ASIF A, MINHAS F U A A, 2020.

Deep-PHURIE: Deep learning based hurricane intensity estimation from infrared satellite imagery

[J]. Neural Computing and Applications, 32(13): 9 009-9 017.

[本文引用: 1]

DOZAT T, 2016.

Incorporating nesterov momentum into Adam

[C]// Proceedings of the 4th International Conference on Learning Representations (ICLR). San Juan, Puerto Rico.

[本文引用: 1]

DUCHI J C, HAZAN E, SINGER Y, 2011.

Adaptive subgradient methods for online learning and stochastic optimization

[J]. Journal of Machine Learning Research, 12: 2 121-2 159.

[本文引用: 1]

ELHOSEINY M, HUANG S, ELGAMMAL A, 2015.

Weather classification with deep convolutional neural networks

[C]// IEEE. 2015 IEEE International Conference on Image Processing (ICIP). Quebec City, QC, Canada: IEEE: 3 349-3 353.

[本文引用: 1]

FENG C, WANG W D, TIAN Y, et al, 2017.

Estimate air quality based on mobile crowd sensing and big data

[C]// IEEE. 2017 IEEE 18th International Symposium on A World of Wireless, Mobile and Multimedia Networks (WoWMoM). Macau, China: IEEE: 1-9.

[本文引用: 1]

FUKUSHIMA K, 1980.

Neocognitron: A self organizing neural network model for a mechanism of pattern recognition unaffected by shift in position

[J]. Biological Cybernetics, 36(4): 193-202.

DOI      PMID      [本文引用: 1]

A neural network model for a mechanism of visual pattern recognition is proposed in this paper. The network is self-organized by "learning without a teacher", and acquires an ability to recognize stimulus patterns based on the geometrical similarity (Gestalt) of their shapes without affected by their positions. This network is given a nickname "neocognitron". After completion of self-organization, the network has a structure similar to the hierarchy model of the visual nervous system proposed by Hubel and Wiesel. The network consists of an input layer (photoreceptor array) followed by a cascade connection of a number of modular structures, each of which is composed of two layers of cells connected in a cascade. The first layer of each module consists of "S-cells", which show characteristics similar to simple cells or lower order hypercomplex cells, and the second layer consists of "C-cells" similar to complex cells or higher order hypercomplex cells. The afferent synapses to each S-cell have plasticity and are modifiable. The network has an ability of unsupervised learning: We do not need any "teacher" during the process of self-organization, and it is only needed to present a set of stimulus patterns repeatedly to the input layer of the network. The network has been simulated on a digital computer. After repetitive presentation of a set of stimulus patterns, each stimulus pattern has become to elicit an output only from one of the C-cells of the last layer, and conversely, this C-cell has become selectively responsive only to that stimulus pattern. That is, none of the C-cells of the last layer responds to more than one stimulus pattern. The response of the C-cells of the last layer is not affected by the pattern's position at all. Neither is it affected by a small change in shape nor in size of the stimulus pattern.

GAGNE D J, HAUPT S E, NYCHKA D W, et al, 2019.

Interpretable deep learning for spatial analysis of severe hailstorms

[J]. Monthly Weather Review, 147(8): 2 827-2 845.

[本文引用: 1]

GIYENKO A, PALVANOV A, CHO Y, 2018.

Application of convolutional neural networks for visibility estimation of CCTV images

[C]// IEEE. 2018 International Conference on Information Networking (ICOIN). Chiang Mai, Thailand: IEEE: 875-879.

[本文引用: 1]

GLOROT X, BORDES A, BENGIO Y, 2011.

Deep sparse rectifier neural networks

[J]. Journal of Machine Learning Research, 15: 315-323.

[本文引用: 1]

GRÖNQUIST P, YAO C Y, BEN-NUN T, et al, 2021.

Deep learning for post-processing ensemble weather forecasts

[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 379(2194): 20200092. DOI: 10.1098/rsta.2020.0092.

[本文引用: 1]

HAM Y G, KIM J H, LUO J J, 2019.

Deep learning for multi-year ENSO forecasts

[J]. Nature, 573(7775): 568-572.

[本文引用: 1]

HAN L, CHEN M X, CHEN K K, et al, 2021.

A deep learning method for bias correction of ECMWF 24-240 h forecasts

[J]. Advances in Atmospheric Sciences, 38(9): 1 444-1 459.

[本文引用: 1]

HE K M, SUN J, TANG X O, 2011.

Single image haze removal using dark channel prior

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(12): 2 341-2 353.

[本文引用: 1]

HE K M, ZHANG X Y, REN S Q, et al, 2015.

Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification

[C]// IEEE. Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV). IEEE Computer Society: 1 026-1 034.

[本文引用: 1]

HE K M, ZHANG X Y, REN S Q, et al, 2016.

Deep residual learning for image recognition

[C]// IEEE. 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, NV, USA: IEEE: 770-778.

[本文引用: 2]

HINTON G E, SALAKHUTDINOV R R, 2006.

Reducing the dimensionality of data with neural networks

[J]. Science, 313(5786): 504-507.

DOI      PMID      [本文引用: 2]

High-dimensional data can be converted to low-dimensional codes by training a multilayer neural network with a small central layer to reconstruct high-dimensional input vectors. Gradient descent can be used for fine-tuning the weights in such "autoencoder" networks, but this works well only if the initial weights are close to a good solution. We describe an effective way of initializing the weights that allows deep autoencoder networks to learn low-dimensional codes that work much better than principal components analysis as a tool to reduce the dimensionality of data.

HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al, 2012.

Improving neural networks by preventing co-adaptation of feature detectors

[J/OL]. (2012-07-03)[2024-07-09]. https://arxiv.org/abs/1207.0580.

URL     [本文引用: 1]

HOWARD A G, ZHU M, CHEN B, et al, 2017.

MobileNets: Efficient convolutional neural networks for mobile vision applications

[J/OL]. (2017-04-17)[2024-04-17]. https://arxiv.org/abs/1704.04861.

URL     [本文引用: 1]

HUANG G, LIU Z, VAN DER MAATEN L, et al, 2017.

Densely connected convolutional networks

[C]// IEEE. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE: 2 261-2 269.

[本文引用: 1]

HUBEL D H, WIESEL T N, 1962.

Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex

[J]. Journal of Physiology, 160(1): 106-154.

[本文引用: 1]

JIANG Y H, CHENG W, GAO F, et al, 2022.

A cloud classification method based on a convolutional neural network for FY-4A satellites

[J]. Remote Sensing, 14(10): 2314. DOI: 10.3390/rs14102314.

[本文引用: 1]

KINGMA D P, BA J, 2014.

Adam: A method for stochastic optimization

[C/OL]// International Conference on Learning Representations (ICLR). San Diego, CA, USA. (2014-12-22)[2024-04-17]. https://arxiv.org/abs/1412.6980.

URL     [本文引用: 1]

KLAMBAUER G, UNTERTHINER T, MAYR A, et al, 2017.

Self-Normalizing neural networks

[C/OL]// Neural Information Processing Systems (NIPS). Long Beach, CA, USA. (2017-09-07)[2024-04-17]. https://arxiv.org/abs/1706.02515.

URL     [本文引用: 1]

KOPP M, TUO Y, DISSE M, 2019.

Fully automated snow depth measurements from time-lapse images applying a convolutional neural network

[J]. Science of The Total Environment, 697: 134213. DOI: 10.1016/j.scitotenv.2019.134213.

[本文引用: 1]

KRIZHEVSKY A, SUTSKEVER I, HINTON G E, 2017.

ImageNet classification with deep convolutional neural networks

[J]. Communications of the ACM, 60(6): 84-90.

[本文引用: 2]

KURTH T, TREICHLER S, ROMERO J, et al, 2018.

Exascale deep learning for climate analytics

[C]// IEEE. SC18:International Conference for High Performance Computing, Networking, Storage and Analysis. Dallas, TX, USA: IEEE: 649-660.

[本文引用: 1]

LAGERQUIST R, MCGOVERN A, GAGNE D J, 2019.

Deep learning for spatially explicit prediction of synoptic-scale fronts

[J]. Weather and Forecasting, 34(4): 1 137-1 160.

[本文引用: 2]

LECUN Y, BENGIO Y, HINTON G, 2015.

Deep learning

[J]. Nature, 521(7553): 436-444.

[本文引用: 1]

LECUN Y, BOTTOU L, BENGIO Y, et al, 1998.

Gradient-based learning applied to document recognition

[J]. Proceedings of the IEEE, 86(11): 2 278-2 324.

[本文引用: 1]

LI Y, MOMEN M, 2021.

Detection of weather events in optical satellite data using deep convolutional neural networks

[J]. Remote Sensing Letters, 12(12): 1 227-1 237.

[本文引用: 1]

LIN M, CHEN Q, YAN S C, 2013.

Network In Network

[J/OL]. (2013-12-16)[2024-04-17]. https://arxiv.org/abs/1312.4400.

URL     [本文引用: 2]

LIU Y J, RACAH E, PRABHAT, et al, 2016.

Application of deep convolutional neural networks for detecting extreme weather in climate datasets

[J/OL]. (2016-05-04)[2024-04-17]. https://arxiv.org/abs/1605.01156.

URL     [本文引用: 1]

LIU Z M, WANG Y X, VAIDYA S, et al, 2024.

KAN: Kolmogorov-Arnold Networks

[J/OL]. (2024-06-16)[2024-04-17]. https://arxiv.org/abs/2404.19756.

URL     [本文引用: 1]

LIU Z, LIN Y T, CAO Y, et al, 2021.

Swin transformer: Hierarchical vision transformer using shifted windows

[C]// IEEE. International Conference on Computer Vision (ICCV). Montreal, QC, Canada: IEEE: 10 012-10 022.

[本文引用: 1]

LONG J, SHELHAMER E, DARRELL T, 2015.

Fully convolutional networks for semantic segmentation

[C]// IEEE. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE: 3 431-3 440.

[本文引用: 1]

LU C W, LIN D, JIA J Y, et al, 2014.

Two-class weather classification

[C]// IEEE. 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH, USA: IEEE: 3 718-3 725.

[本文引用: 1]

MAAS A L, HANNUN A Y, NG A Y, 2013.

Rectifier nonlinearities improve neural network acoustic models

[C]// International Conference on Machine Learning (ICML). Atlanta, USA.

[本文引用: 1]

NESTEROV Y, 1983.

A method for solving the convex programming problem with convergence rate O(1/k^2)

[J]. Proceedings of the USSR Academy of Sciences, 269: 543-547.

[本文引用: 1]

PRADHAN R, AYGUN R S, MASKEY M, et al, 2018.

Tropical cyclone intensity estimation using a deep convolutional neural network

[J]. IEEE Transactions on Image Processing, 27(2): 692-702.

DOI      PMID      [本文引用: 1]

Tropical cyclone intensity estimation is a challenging task as it required domain knowledge while extracting features, significant pre-processing, various sets of parameters obtained from satellites, and human intervention for analysis. The inconsistency of results, significant pre-processing of data, complexity of the problem domain, and problems on generalizability are some of the issues related to intensity estimation. In this study, we design a deep convolutional neural network architecture for categorizing hurricanes based on intensity using graphics processing unit. Our model has achieved better accuracy and lower root-mean-square error by just using satellite images than 'state-of-the-art' techniques. Visualizations of learned features at various layers and their deconvolutions are also presented for understanding the learning process.

RACAH E, BECKHAM C, MAHARAJ T, et al, 2016.

Semi-supervised detection of extreme weather events in large climate datasets

[C/OL]// Neural Information Processing Systems (NIPS). Long Beach, CA, USA. (2016-12-07)[2024-04-17]. https://arxiv.org/abs/1612.02095v1.

URL     [本文引用: 1]

RONNEBERGER O, FISCHER P, BROX T, 2015.

U-net: convolutional networks for biomedical image segmentation

[C]// Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer International Publishing: 234-241.

[本文引用: 1]

RUDER S, 2016.

An overview of gradient descent optimization algorithms

[J/OL]. (2016-09-15)[2024-04-17]. https://arxiv.org/abs/1609.04747.

URL     [本文引用: 1]

RUMELHART D E, HINTON G E, WILLIAMS R J, 1986.

Learning representations by back-propagating errors

[J]. Nature, 323: 533-536.

[本文引用: 1]

SABOUR S, FROSST N, HINTON G E, 2017.

Dynamic Routing Between Capsules

[C/OL]// Neural Information Processing Systems (NIPS). Long Beach, CA, USA. (2017-11-07)[2024-04-17]. https://arxiv.org/abs/1710.09829.

URL     [本文引用: 1]

SCHER S, 2018.

Toward data-driven weather and climate forecasting: Approximating a simple general circulation model with deep learning

[J]. Geophysical Research Letters, 45(22): 12 616-12 622.

[本文引用: 1]

SCHER S, MESSORI G, 2018.

Predicting weather forecast uncertainty with machine learning

[J]. Quarterly Journal of the Royal Meteorological Society, 144(717): 2 830-2 841.

[本文引用: 1]

SCHER S, MESSORI G, 2019.

Weather and climate forecasting with neural networks: using general circulation models (GCMs) with different complexity as a study ground

[J]. Geoscientific Model Development, 12(7): 2 797-2 809.

[本文引用: 1]

SCHULTZ M G, BETANCOURT C, GONG B, et al, 2021.

Can deep learning beat numerical weather prediction?

[J]

Philosophical Transactions of the Royal Society A: Mathematical

Physical and Engineering Sciences, 379(2194): 20200097. DOI: 10.1098/rsta.2020.0097.

[本文引用: 1]

SELVARAJU R R, COGSWELL M, DAS A, et al, 2020.

Grad-CAM: Visual explanations from deep networks via gradient-based localization

[J]. International Journal of Computer Vision, 128(2): 336-359.

[本文引用: 1]

SHI C Z, WANG C H, WANG Y, et al, 2017a.

Deep convolutional activations-based features for ground-based cloud classification

[J]. IEEE Geoscience and Remote Sensing Letters, 14(6): 816-820.

[本文引用: 1]

SHI X J, CHEN Z R, WANG H, et al, 2015.

Convolutional LSTM network: A machine learning approach for precipitation nowcasting

[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press: 802-810.

[本文引用: 1]

SHI X J, GAO Z H, LAUSEN L, et al, 2017b.

Deep learning for precipitation nowcasting: A benchmark and a new model

[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Curran Associates Inc., Long Beach, California, USA: 5 622-5 632.

[本文引用: 3]

SINHA N K, GRISCIK M P, 1971.

A stochastic approximation method

[J]. IEEE Transactions on Systems, Man, and Cybernetics, SMC-1(4): 338-344.

[本文引用: 1]

SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al, 2014.

Striving for simplicity: The all convolutional net

[C/OL]// International Conference on Learning Representations (ICLR). San Diego, CA, USA. (2014-12-21)[2024-04-17]. https://arxiv.org/abs/1412.6806.

URL     [本文引用: 1]

SZEGEDY C, LIU W, JIA Y Q, et al, 2015.

Going deeper with convolutions

[C]// IEEE. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE: 1-9.

[本文引用: 2]

TIELEMAN T, HINTON G, 2012. Lecture 6.5-rmsprop: divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, 4(2): 26-31.

[本文引用: 1]

VANDAL T, KODRA E, GANGULY S, et al, 2017.

DeepSD: Generating high resolution climate change projections through single image super-resolution

[C]// 27th International Joint Conference on Artificial Intelligence (IJCAI). Halifax, NS, Canada, 1703.03126. DOI: 10.48550/arXiv.1703.03126.

[本文引用: 1]

WANG L Y, TAN Z M, 2023.

Deep learning parameterization of the tropical cyclone boundary layer

[J]. Journal of Advances in Modeling Earth Systems, 15(1): e2022MS003034. DOI: 10.1029/2022MS003034.

[本文引用: 1]

WANG X, HAN Y L, XUE W, et al, 2022.

Stable climate simulations using a realistic general circulation model with neural network parameterizations for atmospheric moist physics and radiation processes

[J]. Geoscientific Model Development, 15(9): 3 923-3 940.

[本文引用: 3]

WEYN J A, DURRAN D R, CARUANA R, 2019.

Can machines learn to predict weather? Using deep learning to predict gridded 500-hPa geopotential height from historical weather data

[J]. Journal of Advances in Modeling Earth Systems, 11(8): 2 680-2 693.

[本文引用: 1]

XIE S N, GIRSHICK R, DOLLAR P, et al, 2017.

Aggregated residual transformations for deep neural networks

[C]// IEEE. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE: 5 987-5 995.

[本文引用: 1]

XU B, WANG N Y, CHEN T Q, et al, 2015.

Empirical evaluation of rectified activations in convolutional network

[C]// International Conference on Machine Learning (ICML). Lille, France. DOI: 10.48550/arXiv.1505.00853.

[本文引用: 1]

YAO M Y, TAO D, WANG J T, et al, 2022.

MARVAir: Meteorology augmented residual-based visual approach for crowdsourcing air quality inference

[J]. IEEE Transactions on Instrumentation and Measurement, 71: 1-10.

[本文引用: 3]

YU D J, WANG H L, CHEN P Q, et al, 2014.

Mixed pooling for convolutional neural networks

[C]// The 9th International Conference on Rough Sets and Knowledge Technology. Shanghai, China. DOI: 10.1007/978-3-319-11740-9_34.

[本文引用: 3]

ZEILER M D, FERGUS R, 2013.

Stochastic pooling for regularization of deep convolutional neural networks

[C]// 1st International Conference on Learning Representations (ICLR). Scottsdale, United States. DOI: 10.48550/arXiv.1301.3557.

[本文引用: 1]

ZEILER M D, FERGUS R, 2014.

Visualizing and understanding convolutional networks

[C]// European Conference on Computer Vision (ECCV). Cham: Springer International Publishing. DOI: 10.1007/978-3-319-10590-1_53.

[本文引用: 2]

ZHANG J L, LIU P, ZHANG F, et al, 2018.

CloudNet: Ground-based cloud classification with deep convolutional neural network

[J]. Geophysical Research Letters, 45(16): 8 665-8 672.

[本文引用: 1]

ZHANG X Y, ZHOU X Y, LIN M X, et al, 2018.

ShuffleNet: An extremely efficient convolutional neural network for mobile devices

[C]// IEEE. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE: 6 848-6 856.

[本文引用: 1]

ZHAO B, LI X L, LU X Q, et al, 2018.

A CNN-RNN architecture for multi-label weather recognition

[J]. Neurocomputing, 322: 47-57.

[本文引用: 1]

ZHAO X, WEI H K, WANG H, et al, 2019.

3D-CNN-based feature extraction of ground-based cloud images for direct normal irradiance prediction

[J]. Solar Energy, 181: 510-518.

[本文引用: 1]

ZHOU B L, KHOSLA A, LAPEDRIZA À, et al, 2016.

Learning deep features for discriminative localization

[C]// IEEE. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE: 2 921-2 929.

[本文引用: 1]

ZHOU K H, ZHENG Y G, LI B, et al, 2019.

Forecasting different types of convective weather: A deep learning approach

[J]. Journal of Meteorological Research, 33(5): 797-809.

[本文引用: 1]

ZOPH B, LE Q V, 2016.

Neural architecture search with reinforcement learning

[C/OL]// International Conference on Learning Representations (ICLR). Caribe Hilton, San Juan, Puerto Rico. (2016-11-05)[2024-04-17]. https://arxiv.org/abs/1611.01578.

URL     [本文引用: 1]

/