With the advancement of computer technology and big data, convolutional neural networks of the deep learning have become the mainstream technology for processing large-scale data with grid structure, especially in the field of computer vision. Convolutional neural networks have also been gradually applied in the field of atmospheric science to process multi-angle and multi-scale meteorological data. This paper reviews the progress of convolutional neural networks and their applications in atmospheric science, the conclusions are as following. Through the optimization of network depth and width and magnitude compression, the accuracy and efficiency of convolutional neural networks have been significantly improved, and they have become the mainstream technology for computer vision tasks. The convolutional neural network can process meteorological data efficiently, and has been applied in meteorological target recognition, extreme event detection, numerical model improvement and drought weather event prediction, etc., showing a good application prospect. The application of convolutional neural networks in atmospheric science is still in the exploratory stage, and faces challenges such as the complexity of meteorological data, the need for improvement of model structure and poor interpretability, so further research is needed to promote its development.
MA Minjin, CHEN Ran, CAO Yidan, ZHANG Xingyu, LI Yuebin. Advances in convolutional neural networks and their applications in atmospheric science[J]. Arid Meteorology, 2024, 42(5): 719-733 DOI:10.11755/j.issn.1006-7639-2024-05-0719
0 引言
神经网络,也称为人工神经网络(Artificial Neural Networks,ANN),是模仿生物神经网络进行信息处理的算法模型,是深度学习的基础。随着科技发展,人类生活中产生的数据量呈爆炸式增长。神经网络能够处理大量高维数据,具备强大的鲁棒性和泛化能力,能有效应对大数据时代的复杂挑战,为各行业提供精准、智能的解决方案(Hinton and Salakhutdinov, 2006;LeCun et al., 2015)。卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习中的一类重要算法,通过卷积层和池化层提取数据特征并建模空间结构信息。凭借参数共享和局部连接的特性,CNN能高效处理图像数据,在图像分类、目标检测和图像分割等计算机视觉任务应用中表现突出。
CNN的不断发展和广泛应用已扩展至包括大气科学在内的多个领域,引起了广泛关注(刘雅忱, 2020;Schultz et al.,2021;刘亚伟等, 2021)。在大气科学中,CNN被应用于气象目标识别、遥感图像处理、空气质量监测、数值模式改进和天气气候预测等方面,尽管多数应用仍处于探索阶段,但显示了潜在的可行性和优越性。然而,针对CNN在大气科学中的应用研究较少,多数侧重于更宽泛的深度学习概念。本文首先介绍CNN的发展历程、基本结构和训练方法;然后从图像特征的气象目标识别、极端事件检测、数值模式改进和纯数据驱动的预报等方面综述其在大气科学领域的应用;最后,指出CNN在大气科学领域应用的现有挑战并展望未来,提出具有实际意义的建议和策略,以促进CNN在大气科学领域应用的进一步发展。
1 卷积神经网络的基本介绍
1.1 发展历程
CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息。接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱。20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础。随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起。然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注。此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1)。研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017)。同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生。神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流。
与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战。目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制。此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等。
常见的激活函数有逻辑函数(sigmoid function)、双曲正切函数(hyperbolic tangent function,tanh)和修正线性单元(Rectified Linear Unit,ReLU)(图4)。sigmoid函数是非零均值的,这可能导致输出偏移,进而使模型收敛速度减慢。而tanh函数虽然解决了非零均值的问题,但与sigmoid一样均为饱和函数,其导数在自变量绝对值很大时接近零,这可能引发梯度消失问题。相比之下,ReLU函数是非饱和的,能有效防止梯度消失,从而加速模型收敛。ReLU将所有负值输入映射为零,这种稀疏激活的性质被认为在生物学上是合理的(Glorot et al., 2011)。然而,ReLU也存在潜在问题,如神经元坏死现象,即若初始化后输入分布不理想,则训练过程中某些神经元可能永不被激活,导致权重无法更新(Maas et al., 2013)。
为应对ReLU的缺陷,研究者提出了多种变体,如LReLU、PReLU和RReLU(He et al., 2015; Xu et al., 2015),这些变体试图保持ReLU的优点同时减少其缺点。此外,结合ReLU和sigmoid函数优点的指数修正单元(Exponential Linear Unit,ELU)及其变体CELU、SELU(Clevert et al., 2015;Barron, 2017;Klambauer et al., 2017)也被开发出来,以提高训练效率。
池化层是CNN中用于特征降维的基本结构,其特征图上的神经元通过池化窗口与前一层的局部区域相连,通过减小特征图的尺寸来简化信息,但不改变特征图数量。与卷积层类似,池化窗口在输入特征图上按一定步长进行滑动采样,但一般不重叠。常见的池化方法有平均池化和最大池化(图5),即分别取池化窗口内的平均值或最大值作为输出。此外,还有如混合池化、随机池化和全局池化等更多池化方法(Lin et al., 2013;Zeiler and Fergus, 2013;Yu et al., 2014),这些方法在特定应用中可能提供额外的优势。
然而,全连接层存在参数量过大的缺陷,易导致训练缓慢、模型过拟合。为解决这些问题,Dropout技术(Hinton et al., 2012)被广泛应用,其核心理念是在训练过程中随机让部分神经元失活(即输出为零),从而使得网络结构在每次迭代训练中发生细微改变,降低神经元间的相互依赖,从而增强模型的泛化能力。此外,一些较新的网络模型如网中网(Network In Network,NIN)、GoogLeNet和ResNet等采用全局平均池化替代全连接层,有效减少了模型的参数量(Lin et al., 2013;Szegedy et al., 2015;He et al., 2016)。
数据对于网络模型的训练至关重要,训练数据不足可能导致模型无法收敛,容易陷入局部最优解和过拟合等问题。为减少这些问题,可以采用数据增强方法,即在不增加数据实体的前提下,通过变换或加工原始数据来提高数据量和质量,从而提升模型的泛化能力(Krizhevsky et al., 2017)。然而数据增强可能引入片面噪声,导致过拟合。此时,应调整数据增强方法或选择最佳增强数据子集以提高模型的泛化能力。常用的数据增强方法包括几何变换(如平移、旋转、缩放和剪裁)、颜色抖动和强度变换等(孙书魁等,2024)。
在模型训练中,优化器(Optimizer)指导损失函数的各个参数按正确方向和适当大小更新,以寻找损失函数的全局最小值,这一过程类似于在连绵不绝的山川中寻找最低点,而寻找的方法就是梯度下降法,梯度下降法是大多数优化器的核心,根据反向传播的梯度值决定下降方向,根据学习率调整下降距离。常见的优化器包括随机梯度下降(Stochastic Gradient Descent,SGD)、动量随机梯度下降(Stochastic Gradient Descent with Momentum,SGDM)、Nesterov加速梯度法(Nesterov Accelerated Gradient,NAG)、自适应梯度法(Adaptive Gradient Algorithm,AdaGrad)、均方根传播(Root Mean Square Propagation,RMSProp)、自适应动量估计(Adaptive Moment Estimation,Adam)、Nesterov加速自适应动量估计(Nesterov-accelerated Adaptive Moment Estimation,Nadam)等。
模型中第t次迭代时待优化的参数通过SGD(Sinha and Griscik, 1971)进行更新以得到:
Fig.8
Comparison of SGD (a) and SGDM (b)(from Yu et al., 2014)
尽管SGDM加速了收敛,但仍可能陷入局部最优解。NAG方法(Nesterov, 1983)提供了解决方案,通过计算累积梯度方向下降后的梯度作为当前下降方向,有利于跳出局部最优解。上述优化器的学习率在优化过程中是恒定的,AdaGrad方法(Duchi et al., 2011)通过引入二阶动量vt来调整学习率:
式中:为避免分母为零的小量。AdaGrad的步长在陡峭方向很小,而在平缓方向变大,加速模型收敛。然而,由于未考虑迭代衰减,随着二阶动量的不断增大,学习率逐渐趋近于0,可能导致训练提前结束。RMSProp方法(Tieleman and Hinton, 2012)引入衰减系数使二阶动量成为固定时间窗口内的累积,防止学习率过早衰减。但随着时间窗口的变化,数据可能存在巨变,使得vt时大时小,不再是单调变化,可能导致训练后期学习率的震荡,模型无法收敛。Adam和Nadam方法(Kingma et al., 2014;Dozat, 2016)结合上述两类优化器,引入一阶和二阶动量,关注梯度方向的同时调整学习率大小,为达到最优性能提供了均衡方法。Ruder(2016)对上述优化器进行了更为详细的介绍。
Liu等(2016)使用CNN在大数据集中检测热带气旋、锋面和大气河等极端事件,其中锋面的检测精度相对较低(89.4%),可能与其结构特征在二维场上不明显有关,后续可加入高度信息以提高检测精度。此外,CNN也被应用于通用大气模式CAM5(Community Atmospheric Model v5)的输出数据,取得了较好的预测效果(Racah et al., 2016;Kurth et al., 2018)。
上述工作所用到的数据标签(即极端事件的真实值)主要通过极端气候分析工具包(Toolkit for Extreme Climate Analysis,TECA)处理获得,其结果是基于统计分析得出的,因此存在一定误差和不确定性,直接将这些输出作为CNN的标签可能会引入不准确性和噪声。更好的做法是结合人工标注、使用其他相关数据集,或融合领域专家的知识来获取数据标签。例如,Lagerquist等(2019)基于人工标注的数据集,利用CNN进行锋面的识别和分类,其识别精度超越了传统数值模拟的锋面分析方法。
Wang和Tan(2023)基于1D-CNN开发了一种新的热带气旋边界层湍流通量参数化方案的深度学习模型,该模型的性能明显优于传统的YSU方案(Yonsei University Scheme)。陈锦鹏等(2024)选取了包括CNN在内的4种机器学习算法模拟湿物理参数化方案,发现这些模型均能较好地模拟传统湿物理参数化方案的温湿效应。但这些研究仅进行了离线检验,并未实际应用于模式的在线运行。Wang等(2022)利用残差网络拟合超参数化大气环流模式(Super-parameterized Community Atmosphere Model, SPCAM)中云解析模型的结果,以代替传统CAM5中的湿物理和辐射过程的参数化方案,并开发了一个耦合器用于数值模式和神经网络的信息传递,提出了神经网络参数化大气环流模式(Neural Network Integrated Community Atmosphere Model, NNCAM),实现了神经网络参数化的在线运行(图12),模拟效果接近SPCAM,明显优于传统的CAM5,且在计算量上大幅减少。
大气科学领域,数据通常具有高维性、复杂性和不均衡性。关键变量的数据可能稀缺或噪声较多,这使得训练高精度的CNN模型变得更加困难。为了应对数据的高维性和复杂性,可以探索更高效的特征选择和降维方法。例如,自动编码器和主成分分析(陈锦鹏等, 2021)可以帮助提取主要特征并降低维度,从而降低计算复杂度。此外,基于领域知识的特征工程也能显著提升模型性能,通过合理选择和组合特征,使模型更易捕捉大气过程中的关键模式。针对数据样本不平衡问题,重采样技术(Zhou et al., 2019)及代价敏感学习方法可调整训练过程,使模型更关注不平衡数据中的稀有事件。在高质量数据稀缺的情况下,除加速构建高质量数据集外,也应开发更有效的数据预处理方法,如数据清洗、去噪、缺省值填补等,以及利用数据增强技术生成更多样化的代表性数据集。
3.2 模型结构需求改进
CNN的局部连接和权值共享特性使其在处理图像等网格结构数据时具有优势。新型视觉Transformer模型如Swin-Transformer(Liu et al., 2021)结合了CNN和Transformer的特性,其窗口注意力机制能更好地处理多尺度特征和局部相关性。此外,Kolmogorov-Arnold Networks(KAN)网络(Liu et al.,2024)通过使用一组单变量函数及其组合来有效逼近和表示高维函数,显示出高参数利用效率,可解释性更强。这种方法可以更好地与物理规律相结合,提高气象问题建模的准确性。
尽管CNN能有效处理空间特征(Scher and Messori,2019),但其在处理球面或复杂地形的气象场数据时可能受限。例如,CNN对特征的相对位置可能不敏感,这在传统的图像识别中具有优势,但在对相对位置非常敏感的气象场中并不适用。针对这一问题,已有研究尝试通过引入胶囊神经网络(Capsule Neural Network,CapsNet)(Sabour et al., 2017)和球面CNN(Spherical CNNs)(Cohen et al., 2018)来解决,前者引入胶囊的概念替代传统神经元,通过向量表示捕捉物体的相对位置关系,而后者更适应球面投影数据。随着深度学习的快速发展,新模型和技术的出现为解决复杂气象问题提供了新的工具和方法,有望使CNN在大气科学领域的应用更加准确和高效。
3.3 可解释性问题
尽管CNN在大气科学问题的研究中显示出应用潜力,但其作为一个黑箱模型的内部工作机制难以解释,这在科学研究和实际应用中可能构成障碍,特别是在需要理解模型预测依据的情况下。因此,发展可解释性人工智能(Explainable Artificial Intelligence,XAI)技术变得尤为重要。这包括通过可视化工具和解释算法提高模型的透明度,帮助研究人员和决策者更好地理解模型的行为和预测结果。例如Deconv方法(Zeiler and Fergus, 2014)能够将CNN每层得到的最大激活的特征图映射回输入层的像素空间,揭示网络每层学习到的特征;Grad-CAM方法(Selvaraju et al., 2020)利用CNN的梯度信息生成热力图,突出显示输入图像中对特定预测结果贡献最大的区域。
Combining data assimilation and machine learning to emulate a dynamical model from sparse and noisy observations: A case study with the Lorenz 96 model
[J]. Journal of Computational Science, 44: 101171. DOI: 10.1016/j.jocs.2020.101171.
Fast and accurate deep network learning by exponential linear units (ELUs)
[C/OL]// International Conference on Learning Representations (ICLR). Caribe Hilton, San Juan, Puerto Rico. (2015-11-23)[2024-04-17]. https://arxiv.org/abs/1511.07289.
A neural network model for a mechanism of visual pattern recognition is proposed in this paper. The network is self-organized by "learning without a teacher", and acquires an ability to recognize stimulus patterns based on the geometrical similarity (Gestalt) of their shapes without affected by their positions. This network is given a nickname "neocognitron". After completion of self-organization, the network has a structure similar to the hierarchy model of the visual nervous system proposed by Hubel and Wiesel. The network consists of an input layer (photoreceptor array) followed by a cascade connection of a number of modular structures, each of which is composed of two layers of cells connected in a cascade. The first layer of each module consists of "S-cells", which show characteristics similar to simple cells or lower order hypercomplex cells, and the second layer consists of "C-cells" similar to complex cells or higher order hypercomplex cells. The afferent synapses to each S-cell have plasticity and are modifiable. The network has an ability of unsupervised learning: We do not need any "teacher" during the process of self-organization, and it is only needed to present a set of stimulus patterns repeatedly to the input layer of the network. The network has been simulated on a digital computer. After repetitive presentation of a set of stimulus patterns, each stimulus pattern has become to elicit an output only from one of the C-cells of the last layer, and conversely, this C-cell has become selectively responsive only to that stimulus pattern. That is, none of the C-cells of the last layer responds to more than one stimulus pattern. The response of the C-cells of the last layer is not affected by the pattern's position at all. Neither is it affected by a small change in shape nor in size of the stimulus pattern.
GAGNED J, HAUPTS E, NYCHKAD W, et al, 2019.
Interpretable deep learning for spatial analysis of severe hailstorms
Deep learning for post-processing ensemble weather forecasts
[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 379(2194): 20200092. DOI: 10.1098/rsta.2020.0092.
High-dimensional data can be converted to low-dimensional codes by training a multilayer neural network with a small central layer to reconstruct high-dimensional input vectors. Gradient descent can be used for fine-tuning the weights in such "autoencoder" networks, but this works well only if the initial weights are close to a good solution. We describe an effective way of initializing the weights that allows deep autoencoder networks to learn low-dimensional codes that work much better than principal components analysis as a tool to reduce the dimensionality of data.
HINTONG E, SRIVASTAVAN, KRIZHEVSKYA, et al, 2012.
Improving neural networks by preventing co-adaptation of feature detectors
Tropical cyclone intensity estimation is a challenging task as it required domain knowledge while extracting features, significant pre-processing, various sets of parameters obtained from satellites, and human intervention for analysis. The inconsistency of results, significant pre-processing of data, complexity of the problem domain, and problems on generalizability are some of the issues related to intensity estimation. In this study, we design a deep convolutional neural network architecture for categorizing hurricanes based on intensity using graphics processing unit. Our model has achieved better accuracy and lower root-mean-square error by just using satellite images than 'state-of-the-art' techniques. Visualizations of learned features at various layers and their deconvolutions are also presented for understanding the learning process.
RACAHE, BECKHAMC, MAHARAJT, et al, 2016.
Semi-supervised detection of extreme weather events in large climate datasets
[C/OL]// Neural Information Processing Systems (NIPS). Long Beach, CA, USA. (2016-12-07)[2024-04-17]. https://arxiv.org/abs/1612.02095v1.
U-net: convolutional networks for biomedical image segmentation
[C]// Proceedings of the 18th International Conference on Medical Image Computing and Computer-Assisted Intervention. Munich, Germany: Springer International Publishing: 234-241.
Deep learning for precipitation nowcasting: A benchmark and a new model
[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Curran Associates Inc., Long Beach, California, USA: 5 622-5 632.
TIELEMANT, HINTONG, 2012. Lecture 6.5-rmsprop: divide the gradient by a running average of its recent magnitude. COURSERA: Neural networks for machine learning, 4(2): 26-31.
Stable climate simulations using a realistic general circulation model with neural network parameterizations for atmospheric moist physics and radiation processes
[J]. Geoscientific Model Development, 15(9): 3 923-3 940.
Neural architecture search with reinforcement learning
[C/OL]// International Conference on Learning Representations (ICLR). Caribe Hilton, San Juan, Puerto Rico. (2016-11-05)[2024-04-17]. https://arxiv.org/abs/1611.01578.
... 对于0~6 h强对流天气的短临预报方法主要包括雷达回波外推和数值模式.模式预报在短时间内预报精度较差,因此主要采用雷达回波外推预报.尽管传统的光流法在降水临近预报上取得了不错的效果(曹春燕等,2015),但仍存在运动假设不准确和回波质量要求高的问题.CNN作为一种新方法在雷达回波外推中展现了良好的应用前景.Shi等(2015)将降水临近预报视作雷达图的时空序列预测问题,提出了卷积长短期记忆网络(Convolutional Long Short-Term Memory,ConvLSTM)模型对雷达回波进行外推,该模型结合了CNN的空间信息编码和LSTM的时间依赖性编码,实现了时空双重预测,并优于光流法.之后,Shi等(2017b)进一步提出了轨迹门控循环单元(Trajectory Gated Recurrent Unit,TrajGRU)模型,将LSTM替换为更简洁高效的GRU,以更好地捕捉图像的运动轨迹(图9).越来越多基于CNN和RNN结合的时空预测模型如PredRNN++、MIM、CrevNet和PhyDNet被提出,袁凯等(2023)的研究显示这些模型在预报雷达回波的强度变化和运动方向上均优于传统方法,展示了良好的应用前景. ...
利用机器学习模拟湿物理参数化方案
1
2024
... Wang和Tan(2023)基于1D-CNN开发了一种新的热带气旋边界层湍流通量参数化方案的深度学习模型,该模型的性能明显优于传统的YSU方案(Yonsei University Scheme).陈锦鹏等(2024)选取了包括CNN在内的4种机器学习算法模拟湿物理参数化方案,发现这些模型均能较好地模拟传统湿物理参数化方案的温湿效应.但这些研究仅进行了离线检验,并未实际应用于模式的在线运行.Wang等(2022)利用残差网络拟合超参数化大气环流模式(Super-parameterized Community Atmosphere Model, SPCAM)中云解析模型的结果,以代替传统CAM5中的湿物理和辐射过程的参数化方案,并开发了一个耦合器用于数值模式和神经网络的信息传递,提出了神经网络参数化大气环流模式(Neural Network Integrated Community Atmosphere Model, NNCAM),实现了神经网络参数化的在线运行(图12),模拟效果接近SPCAM,明显优于传统的CAM5,且在计算量上大幅减少. ...
... 对于0~6 h强对流天气的短临预报方法主要包括雷达回波外推和数值模式.模式预报在短时间内预报精度较差,因此主要采用雷达回波外推预报.尽管传统的光流法在降水临近预报上取得了不错的效果(曹春燕等,2015),但仍存在运动假设不准确和回波质量要求高的问题.CNN作为一种新方法在雷达回波外推中展现了良好的应用前景.Shi等(2015)将降水临近预报视作雷达图的时空序列预测问题,提出了卷积长短期记忆网络(Convolutional Long Short-Term Memory,ConvLSTM)模型对雷达回波进行外推,该模型结合了CNN的空间信息编码和LSTM的时间依赖性编码,实现了时空双重预测,并优于光流法.之后,Shi等(2017b)进一步提出了轨迹门控循环单元(Trajectory Gated Recurrent Unit,TrajGRU)模型,将LSTM替换为更简洁高效的GRU,以更好地捕捉图像的运动轨迹(图9).越来越多基于CNN和RNN结合的时空预测模型如PredRNN++、MIM、CrevNet和PhyDNet被提出,袁凯等(2023)的研究显示这些模型在预报雷达回波的强度变化和运动方向上均优于传统方法,展示了良好的应用前景. ...
基于深度学习的积层混合云对流泡降水粒子特征研究
1
2023
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
SegNet: A deep convolutional encoder-decoder architecture for image segmentation
1
2017
... 与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战.目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制.此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等. ...
Configuration and intercomparison of deep learning neural models for statistical downscaling
Continuously differentiable exponential linear units
1
2017
... 为应对ReLU的缺陷,研究者提出了多种变体,如LReLU、PReLU和RReLU(He et al., 2015; Xu et al., 2015),这些变体试图保持ReLU的优点同时减少其缺点.此外,结合ReLU和sigmoid函数优点的指数修正单元(Exponential Linear Unit,ELU)及其变体CELU、SELU(Clevert et al., 2015;Barron, 2017;Klambauer et al., 2017)也被开发出来,以提高训练效率. ...
Visual analysis of nonlinear dynamical systems: Chaos, fractals, self-similarity and the limits of prediction
Combining data assimilation and machine learning to emulate a dynamical model from sparse and noisy observations: A case study with the Lorenz 96 model
... 资料同化和深度学习相结合的双向互反馈耦合流程图(引自Brajard et al., 2020)Two-way mutual feedback coupled flow chart combining data assimilation and deep learning (from Brajard et al., 2020)Fig.112.3.2 替代参数化方案
Deep learning-based rainfall prediction using cloud image analysis
1
2023
... 云是大气中的重要组成部分,其特性如存在与否、位置、高度和覆盖率等对天气预报具有重要意义.地基云观测为气象研究提供了更全面的云微观结构信息,其中,地基云自动分类技术是关键,Shi等(2017a)利用视觉几何组网络(Visual Geometry Group Network,VGG)对地基云图进行特征提取并分类,浅层特征与深层特征在云分类任务中的表现相当.这可能是因为云分类中精细的纹理信息比高级语义信息更为重要,VGG提取的浅层特征足以描述云的纹理信息,且其分类效果优于多数传统方法.Zhang和Liu等(2018)构建了卷云、积云、层云、雨云数据集(Cirrus Cumulus Stratus Nimbus, CCSN),将云基于气象标准分为10类,首次将飞行轨迹纳入地基云分类任务,并使用该数据集训练得到一个简单有效的CNN模型——CloudNet.此外,Zhao等(2019)利用3D-CNN模型对连续时间间隔的地基云图进行特征提取,并成功预测了太阳直接辐射的变化,其效果超越了传统方法.Byun等(2023)提出了一个先分类后回归的CNN模型用于预测日间降水量,该模型先判断是否会有降水,若无则输出降水量为0,有则继续预测降水量.此种策略不仅提高了预测准确性,还缩短了推理时间. ...
DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs
1
2018
... 与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战.目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制.此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等. ...
Fast and accurate deep network learning by exponential linear units (ELUs)
1
2015
... 为应对ReLU的缺陷,研究者提出了多种变体,如LReLU、PReLU和RReLU(He et al., 2015; Xu et al., 2015),这些变体试图保持ReLU的优点同时减少其缺点.此外,结合ReLU和sigmoid函数优点的指数修正单元(Exponential Linear Unit,ELU)及其变体CELU、SELU(Clevert et al., 2015;Barron, 2017;Klambauer et al., 2017)也被开发出来,以提高训练效率. ...
Spherical CNNs
1
2018
... 尽管CNN能有效处理空间特征(Scher and Messori,2019),但其在处理球面或复杂地形的气象场数据时可能受限.例如,CNN对特征的相对位置可能不敏感,这在传统的图像识别中具有优势,但在对相对位置非常敏感的气象场中并不适用.针对这一问题,已有研究尝试通过引入胶囊神经网络(Capsule Neural Network,CapsNet)(Sabour et al., 2017)和球面CNN(Spherical CNNs)(Cohen et al., 2018)来解决,前者引入胶囊的概念替代传统神经元,通过向量表示捕捉物体的相对位置关系,而后者更适应球面投影数据.随着深度学习的快速发展,新模型和技术的出现为解决复杂气象问题提供了新的工具和方法,有望使CNN在大气科学领域的应用更加准确和高效. ...
Deep-PHURIE: Deep learning based hurricane intensity estimation from infrared satellite imagery
... 式中:为避免分母为零的小量.AdaGrad的步长在陡峭方向很小,而在平缓方向变大,加速模型收敛.然而,由于未考虑迭代衰减,随着二阶动量的不断增大,学习率逐渐趋近于0,可能导致训练提前结束.RMSProp方法(Tieleman and Hinton, 2012)引入衰减系数使二阶动量成为固定时间窗口内的累积,防止学习率过早衰减.但随着时间窗口的变化,数据可能存在巨变,使得vt时大时小,不再是单调变化,可能导致训练后期学习率的震荡,模型无法收敛.Adam和Nadam方法(Kingma et al., 2014;Dozat, 2016)结合上述两类优化器,引入一阶和二阶动量,关注梯度方向的同时调整学习率大小,为达到最优性能提供了均衡方法.Ruder(2016)对上述优化器进行了更为详细的介绍. ...
Adaptive subgradient methods for online learning and stochastic optimization
1
2011
... 尽管SGDM加速了收敛,但仍可能陷入局部最优解.NAG方法(Nesterov, 1983)提供了解决方案,通过计算累积梯度方向下降后的梯度作为当前下降方向,有利于跳出局部最优解.上述优化器的学习率在优化过程中是恒定的,AdaGrad方法(Duchi et al., 2011)通过引入二阶动量vt来调整学习率: ...
Weather classification with deep convolutional neural networks
1
2015
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
Estimate air quality based on mobile crowd sensing and big data
1
2017
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
Neocognitron: A self organizing neural network model for a mechanism of pattern recognition unaffected by shift in position
1
1980
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
Interpretable deep learning for spatial analysis of severe hailstorms
Application of convolutional neural networks for visibility estimation of CCTV images
1
2018
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
Deep sparse rectifier neural networks
1
2011
... 常见的激活函数有逻辑函数(sigmoid function)、双曲正切函数(hyperbolic tangent function,tanh)和修正线性单元(Rectified Linear Unit,ReLU)(图4).sigmoid函数是非零均值的,这可能导致输出偏移,进而使模型收敛速度减慢.而tanh函数虽然解决了非零均值的问题,但与sigmoid一样均为饱和函数,其导数在自变量绝对值很大时接近零,这可能引发梯度消失问题.相比之下,ReLU函数是非饱和的,能有效防止梯度消失,从而加速模型收敛.ReLU将所有负值输入映射为零,这种稀疏激活的性质被认为在生物学上是合理的(Glorot et al., 2011).然而,ReLU也存在潜在问题,如神经元坏死现象,即若初始化后输入分布不理想,则训练过程中某些神经元可能永不被激活,导致权重无法更新(Maas et al., 2013). ...
Deep learning for post-processing ensemble weather forecasts
Single image haze removal using dark channel prior
1
2011
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification
1
2015
... 为应对ReLU的缺陷,研究者提出了多种变体,如LReLU、PReLU和RReLU(He et al., 2015; Xu et al., 2015),这些变体试图保持ReLU的优点同时减少其缺点.此外,结合ReLU和sigmoid函数优点的指数修正单元(Exponential Linear Unit,ELU)及其变体CELU、SELU(Clevert et al., 2015;Barron, 2017;Klambauer et al., 2017)也被开发出来,以提高训练效率. ...
Deep residual learning for image recognition
2
2016
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
... 然而,全连接层存在参数量过大的缺陷,易导致训练缓慢、模型过拟合.为解决这些问题,Dropout技术(Hinton et al., 2012)被广泛应用,其核心理念是在训练过程中随机让部分神经元失活(即输出为零),从而使得网络结构在每次迭代训练中发生细微改变,降低神经元间的相互依赖,从而增强模型的泛化能力.此外,一些较新的网络模型如网中网(Network In Network,NIN)、GoogLeNet和ResNet等采用全局平均池化替代全连接层,有效减少了模型的参数量(Lin et al., 2013;Szegedy et al., 2015;He et al., 2016). ...
Reducing the dimensionality of data with neural networks
2
2006
... 神经网络,也称为人工神经网络(Artificial Neural Networks,ANN),是模仿生物神经网络进行信息处理的算法模型,是深度学习的基础.随着科技发展,人类生活中产生的数据量呈爆炸式增长.神经网络能够处理大量高维数据,具备强大的鲁棒性和泛化能力,能有效应对大数据时代的复杂挑战,为各行业提供精准、智能的解决方案(Hinton and Salakhutdinov, 2006;LeCun et al., 2015).卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习中的一类重要算法,通过卷积层和池化层提取数据特征并建模空间结构信息.凭借参数共享和局部连接的特性,CNN能高效处理图像数据,在图像分类、目标检测和图像分割等计算机视觉任务应用中表现突出. ...
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
Improving neural networks by preventing co-adaptation of feature detectors
1
2012
... 然而,全连接层存在参数量过大的缺陷,易导致训练缓慢、模型过拟合.为解决这些问题,Dropout技术(Hinton et al., 2012)被广泛应用,其核心理念是在训练过程中随机让部分神经元失活(即输出为零),从而使得网络结构在每次迭代训练中发生细微改变,降低神经元间的相互依赖,从而增强模型的泛化能力.此外,一些较新的网络模型如网中网(Network In Network,NIN)、GoogLeNet和ResNet等采用全局平均池化替代全连接层,有效减少了模型的参数量(Lin et al., 2013;Szegedy et al., 2015;He et al., 2016). ...
MobileNets: Efficient convolutional neural networks for mobile vision applications
1
2017
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
Densely connected convolutional networks
1
2017
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex
1
1962
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
A cloud classification method based on a convolutional neural network for FY-4A satellites
... 式中:为避免分母为零的小量.AdaGrad的步长在陡峭方向很小,而在平缓方向变大,加速模型收敛.然而,由于未考虑迭代衰减,随着二阶动量的不断增大,学习率逐渐趋近于0,可能导致训练提前结束.RMSProp方法(Tieleman and Hinton, 2012)引入衰减系数使二阶动量成为固定时间窗口内的累积,防止学习率过早衰减.但随着时间窗口的变化,数据可能存在巨变,使得vt时大时小,不再是单调变化,可能导致训练后期学习率的震荡,模型无法收敛.Adam和Nadam方法(Kingma et al., 2014;Dozat, 2016)结合上述两类优化器,引入一阶和二阶动量,关注梯度方向的同时调整学习率大小,为达到最优性能提供了均衡方法.Ruder(2016)对上述优化器进行了更为详细的介绍. ...
Self-Normalizing neural networks
1
2017
... 为应对ReLU的缺陷,研究者提出了多种变体,如LReLU、PReLU和RReLU(He et al., 2015; Xu et al., 2015),这些变体试图保持ReLU的优点同时减少其缺点.此外,结合ReLU和sigmoid函数优点的指数修正单元(Exponential Linear Unit,ELU)及其变体CELU、SELU(Clevert et al., 2015;Barron, 2017;Klambauer et al., 2017)也被开发出来,以提高训练效率. ...
Fully automated snow depth measurements from time-lapse images applying a convolutional neural network
1
2019
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
ImageNet classification with deep convolutional neural networks
2
2017
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
... 数据对于网络模型的训练至关重要,训练数据不足可能导致模型无法收敛,容易陷入局部最优解和过拟合等问题.为减少这些问题,可以采用数据增强方法,即在不增加数据实体的前提下,通过变换或加工原始数据来提高数据量和质量,从而提升模型的泛化能力(Krizhevsky et al., 2017).然而数据增强可能引入片面噪声,导致过拟合.此时,应调整数据增强方法或选择最佳增强数据子集以提高模型的泛化能力.常用的数据增强方法包括几何变换(如平移、旋转、缩放和剪裁)、颜色抖动和强度变换等(孙书魁等,2024). ...
Exascale deep learning for climate analytics
1
2018
... Liu等(2016)使用CNN在大数据集中检测热带气旋、锋面和大气河等极端事件,其中锋面的检测精度相对较低(89.4%),可能与其结构特征在二维场上不明显有关,后续可加入高度信息以提高检测精度.此外,CNN也被应用于通用大气模式CAM5(Community Atmospheric Model v5)的输出数据,取得了较好的预测效果(Racah et al., 2016;Kurth et al., 2018). ...
Deep learning for spatially explicit prediction of synoptic-scale fronts
2
2019
... 上述工作所用到的数据标签(即极端事件的真实值)主要通过极端气候分析工具包(Toolkit for Extreme Climate Analysis,TECA)处理获得,其结果是基于统计分析得出的,因此存在一定误差和不确定性,直接将这些输出作为CNN的标签可能会引入不准确性和噪声.更好的做法是结合人工标注、使用其他相关数据集,或融合领域专家的知识来获取数据标签.例如,Lagerquist等(2019)基于人工标注的数据集,利用CNN进行锋面的识别和分类,其识别精度超越了传统数值模拟的锋面分析方法. ...
... 神经网络,也称为人工神经网络(Artificial Neural Networks,ANN),是模仿生物神经网络进行信息处理的算法模型,是深度学习的基础.随着科技发展,人类生活中产生的数据量呈爆炸式增长.神经网络能够处理大量高维数据,具备强大的鲁棒性和泛化能力,能有效应对大数据时代的复杂挑战,为各行业提供精准、智能的解决方案(Hinton and Salakhutdinov, 2006;LeCun et al., 2015).卷积神经网络(Convolutional Neural Networks,CNN)作为深度学习中的一类重要算法,通过卷积层和池化层提取数据特征并建模空间结构信息.凭借参数共享和局部连接的特性,CNN能高效处理图像数据,在图像分类、目标检测和图像分割等计算机视觉任务应用中表现突出. ...
Gradient-based learning applied to document recognition
1
1998
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
Detection of weather events in optical satellite data using deep convolutional neural networks
... 池化层是CNN中用于特征降维的基本结构,其特征图上的神经元通过池化窗口与前一层的局部区域相连,通过减小特征图的尺寸来简化信息,但不改变特征图数量.与卷积层类似,池化窗口在输入特征图上按一定步长进行滑动采样,但一般不重叠.常见的池化方法有平均池化和最大池化(图5),即分别取池化窗口内的平均值或最大值作为输出.此外,还有如混合池化、随机池化和全局池化等更多池化方法(Lin et al., 2013;Zeiler and Fergus, 2013;Yu et al., 2014),这些方法在特定应用中可能提供额外的优势. ...
... 然而,全连接层存在参数量过大的缺陷,易导致训练缓慢、模型过拟合.为解决这些问题,Dropout技术(Hinton et al., 2012)被广泛应用,其核心理念是在训练过程中随机让部分神经元失活(即输出为零),从而使得网络结构在每次迭代训练中发生细微改变,降低神经元间的相互依赖,从而增强模型的泛化能力.此外,一些较新的网络模型如网中网(Network In Network,NIN)、GoogLeNet和ResNet等采用全局平均池化替代全连接层,有效减少了模型的参数量(Lin et al., 2013;Szegedy et al., 2015;He et al., 2016). ...
Application of deep convolutional neural networks for detecting extreme weather in climate datasets
1
2016
... Liu等(2016)使用CNN在大数据集中检测热带气旋、锋面和大气河等极端事件,其中锋面的检测精度相对较低(89.4%),可能与其结构特征在二维场上不明显有关,后续可加入高度信息以提高检测精度.此外,CNN也被应用于通用大气模式CAM5(Community Atmospheric Model v5)的输出数据,取得了较好的预测效果(Racah et al., 2016;Kurth et al., 2018). ...
KAN: Kolmogorov-Arnold Networks
1
2024
... CNN的局部连接和权值共享特性使其在处理图像等网格结构数据时具有优势.新型视觉Transformer模型如Swin-Transformer(Liu et al., 2021)结合了CNN和Transformer的特性,其窗口注意力机制能更好地处理多尺度特征和局部相关性.此外,Kolmogorov-Arnold Networks(KAN)网络(Liu et al.,2024)通过使用一组单变量函数及其组合来有效逼近和表示高维函数,显示出高参数利用效率,可解释性更强.这种方法可以更好地与物理规律相结合,提高气象问题建模的准确性. ...
Swin transformer: Hierarchical vision transformer using shifted windows
1
2021
... CNN的局部连接和权值共享特性使其在处理图像等网格结构数据时具有优势.新型视觉Transformer模型如Swin-Transformer(Liu et al., 2021)结合了CNN和Transformer的特性,其窗口注意力机制能更好地处理多尺度特征和局部相关性.此外,Kolmogorov-Arnold Networks(KAN)网络(Liu et al.,2024)通过使用一组单变量函数及其组合来有效逼近和表示高维函数,显示出高参数利用效率,可解释性更强.这种方法可以更好地与物理规律相结合,提高气象问题建模的准确性. ...
Fully convolutional networks for semantic segmentation
1
2015
... 与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战.目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制.此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等. ...
Two-class weather classification
1
2014
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
... 常见的激活函数有逻辑函数(sigmoid function)、双曲正切函数(hyperbolic tangent function,tanh)和修正线性单元(Rectified Linear Unit,ReLU)(图4).sigmoid函数是非零均值的,这可能导致输出偏移,进而使模型收敛速度减慢.而tanh函数虽然解决了非零均值的问题,但与sigmoid一样均为饱和函数,其导数在自变量绝对值很大时接近零,这可能引发梯度消失问题.相比之下,ReLU函数是非饱和的,能有效防止梯度消失,从而加速模型收敛.ReLU将所有负值输入映射为零,这种稀疏激活的性质被认为在生物学上是合理的(Glorot et al., 2011).然而,ReLU也存在潜在问题,如神经元坏死现象,即若初始化后输入分布不理想,则训练过程中某些神经元可能永不被激活,导致权重无法更新(Maas et al., 2013). ...
A method for solving the convex programming problem with convergence rate O(1/k^2)
1
1983
... 尽管SGDM加速了收敛,但仍可能陷入局部最优解.NAG方法(Nesterov, 1983)提供了解决方案,通过计算累积梯度方向下降后的梯度作为当前下降方向,有利于跳出局部最优解.上述优化器的学习率在优化过程中是恒定的,AdaGrad方法(Duchi et al., 2011)通过引入二阶动量vt来调整学习率: ...
Tropical cyclone intensity estimation using a deep convolutional neural network
Semi-supervised detection of extreme weather events in large climate datasets
1
2016
... Liu等(2016)使用CNN在大数据集中检测热带气旋、锋面和大气河等极端事件,其中锋面的检测精度相对较低(89.4%),可能与其结构特征在二维场上不明显有关,后续可加入高度信息以提高检测精度.此外,CNN也被应用于通用大气模式CAM5(Community Atmospheric Model v5)的输出数据,取得了较好的预测效果(Racah et al., 2016;Kurth et al., 2018). ...
U-net: convolutional networks for biomedical image segmentation
1
2015
... 与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战.目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制.此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等. ...
An overview of gradient descent optimization algorithms
1
2016
... 式中:为避免分母为零的小量.AdaGrad的步长在陡峭方向很小,而在平缓方向变大,加速模型收敛.然而,由于未考虑迭代衰减,随着二阶动量的不断增大,学习率逐渐趋近于0,可能导致训练提前结束.RMSProp方法(Tieleman and Hinton, 2012)引入衰减系数使二阶动量成为固定时间窗口内的累积,防止学习率过早衰减.但随着时间窗口的变化,数据可能存在巨变,使得vt时大时小,不再是单调变化,可能导致训练后期学习率的震荡,模型无法收敛.Adam和Nadam方法(Kingma et al., 2014;Dozat, 2016)结合上述两类优化器,引入一阶和二阶动量,关注梯度方向的同时调整学习率大小,为达到最优性能提供了均衡方法.Ruder(2016)对上述优化器进行了更为详细的介绍. ...
Learning representations by back-propagating errors
1
1986
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
Dynamic Routing Between Capsules
1
2017
... 尽管CNN能有效处理空间特征(Scher and Messori,2019),但其在处理球面或复杂地形的气象场数据时可能受限.例如,CNN对特征的相对位置可能不敏感,这在传统的图像识别中具有优势,但在对相对位置非常敏感的气象场中并不适用.针对这一问题,已有研究尝试通过引入胶囊神经网络(Capsule Neural Network,CapsNet)(Sabour et al., 2017)和球面CNN(Spherical CNNs)(Cohen et al., 2018)来解决,前者引入胶囊的概念替代传统神经元,通过向量表示捕捉物体的相对位置关系,而后者更适应球面投影数据.随着深度学习的快速发展,新模型和技术的出现为解决复杂气象问题提供了新的工具和方法,有望使CNN在大气科学领域的应用更加准确和高效. ...
Toward data-driven weather and climate forecasting: Approximating a simple general circulation model with deep learning
Weather and climate forecasting with neural networks: using general circulation models (GCMs) with different complexity as a study ground
1
2019
... 尽管CNN能有效处理空间特征(Scher and Messori,2019),但其在处理球面或复杂地形的气象场数据时可能受限.例如,CNN对特征的相对位置可能不敏感,这在传统的图像识别中具有优势,但在对相对位置非常敏感的气象场中并不适用.针对这一问题,已有研究尝试通过引入胶囊神经网络(Capsule Neural Network,CapsNet)(Sabour et al., 2017)和球面CNN(Spherical CNNs)(Cohen et al., 2018)来解决,前者引入胶囊的概念替代传统神经元,通过向量表示捕捉物体的相对位置关系,而后者更适应球面投影数据.随着深度学习的快速发展,新模型和技术的出现为解决复杂气象问题提供了新的工具和方法,有望使CNN在大气科学领域的应用更加准确和高效. ...
Philosophical Transactions of the Royal Society A: Mathematical
1
2194
... CNN的不断发展和广泛应用已扩展至包括大气科学在内的多个领域,引起了广泛关注(刘雅忱, 2020;Schultz et al.,2021;刘亚伟等, 2021).在大气科学中,CNN被应用于气象目标识别、遥感图像处理、空气质量监测、数值模式改进和天气气候预测等方面,尽管多数应用仍处于探索阶段,但显示了潜在的可行性和优越性.然而,针对CNN在大气科学中的应用研究较少,多数侧重于更宽泛的深度学习概念.本文首先介绍CNN的发展历程、基本结构和训练方法;然后从图像特征的气象目标识别、极端事件检测、数值模式改进和纯数据驱动的预报等方面综述其在大气科学领域的应用;最后,指出CNN在大气科学领域应用的现有挑战并展望未来,提出具有实际意义的建议和策略,以促进CNN在大气科学领域应用的进一步发展. ...
Grad-CAM: Visual explanations from deep networks via gradient-based localization
1
2020
... 尽管CNN在大气科学问题的研究中显示出应用潜力,但其作为一个黑箱模型的内部工作机制难以解释,这在科学研究和实际应用中可能构成障碍,特别是在需要理解模型预测依据的情况下.因此,发展可解释性人工智能(Explainable Artificial Intelligence,XAI)技术变得尤为重要.这包括通过可视化工具和解释算法提高模型的透明度,帮助研究人员和决策者更好地理解模型的行为和预测结果.例如Deconv方法(Zeiler and Fergus, 2014)能够将CNN每层得到的最大激活的特征图映射回输入层的像素空间,揭示网络每层学习到的特征;Grad-CAM方法(Selvaraju et al., 2020)利用CNN的梯度信息生成热力图,突出显示输入图像中对特定预测结果贡献最大的区域. ...
Deep convolutional activations-based features for ground-based cloud classification
1
2017a
... 云是大气中的重要组成部分,其特性如存在与否、位置、高度和覆盖率等对天气预报具有重要意义.地基云观测为气象研究提供了更全面的云微观结构信息,其中,地基云自动分类技术是关键,Shi等(2017a)利用视觉几何组网络(Visual Geometry Group Network,VGG)对地基云图进行特征提取并分类,浅层特征与深层特征在云分类任务中的表现相当.这可能是因为云分类中精细的纹理信息比高级语义信息更为重要,VGG提取的浅层特征足以描述云的纹理信息,且其分类效果优于多数传统方法.Zhang和Liu等(2018)构建了卷云、积云、层云、雨云数据集(Cirrus Cumulus Stratus Nimbus, CCSN),将云基于气象标准分为10类,首次将飞行轨迹纳入地基云分类任务,并使用该数据集训练得到一个简单有效的CNN模型——CloudNet.此外,Zhao等(2019)利用3D-CNN模型对连续时间间隔的地基云图进行特征提取,并成功预测了太阳直接辐射的变化,其效果超越了传统方法.Byun等(2023)提出了一个先分类后回归的CNN模型用于预测日间降水量,该模型先判断是否会有降水,若无则输出降水量为0,有则继续预测降水量.此种策略不仅提高了预测准确性,还缩短了推理时间. ...
Convolutional LSTM network: A machine learning approach for precipitation nowcasting
1
2015
... 对于0~6 h强对流天气的短临预报方法主要包括雷达回波外推和数值模式.模式预报在短时间内预报精度较差,因此主要采用雷达回波外推预报.尽管传统的光流法在降水临近预报上取得了不错的效果(曹春燕等,2015),但仍存在运动假设不准确和回波质量要求高的问题.CNN作为一种新方法在雷达回波外推中展现了良好的应用前景.Shi等(2015)将降水临近预报视作雷达图的时空序列预测问题,提出了卷积长短期记忆网络(Convolutional Long Short-Term Memory,ConvLSTM)模型对雷达回波进行外推,该模型结合了CNN的空间信息编码和LSTM的时间依赖性编码,实现了时空双重预测,并优于光流法.之后,Shi等(2017b)进一步提出了轨迹门控循环单元(Trajectory Gated Recurrent Unit,TrajGRU)模型,将LSTM替换为更简洁高效的GRU,以更好地捕捉图像的运动轨迹(图9).越来越多基于CNN和RNN结合的时空预测模型如PredRNN++、MIM、CrevNet和PhyDNet被提出,袁凯等(2023)的研究显示这些模型在预报雷达回波的强度变化和运动方向上均优于传统方法,展示了良好的应用前景. ...
Deep learning for precipitation nowcasting: A benchmark and a new model
3
2017b
... 对于0~6 h强对流天气的短临预报方法主要包括雷达回波外推和数值模式.模式预报在短时间内预报精度较差,因此主要采用雷达回波外推预报.尽管传统的光流法在降水临近预报上取得了不错的效果(曹春燕等,2015),但仍存在运动假设不准确和回波质量要求高的问题.CNN作为一种新方法在雷达回波外推中展现了良好的应用前景.Shi等(2015)将降水临近预报视作雷达图的时空序列预测问题,提出了卷积长短期记忆网络(Convolutional Long Short-Term Memory,ConvLSTM)模型对雷达回波进行外推,该模型结合了CNN的空间信息编码和LSTM的时间依赖性编码,实现了时空双重预测,并优于光流法.之后,Shi等(2017b)进一步提出了轨迹门控循环单元(Trajectory Gated Recurrent Unit,TrajGRU)模型,将LSTM替换为更简洁高效的GRU,以更好地捕捉图像的运动轨迹(图9).越来越多基于CNN和RNN结合的时空预测模型如PredRNN++、MIM、CrevNet和PhyDNet被提出,袁凯等(2023)的研究显示这些模型在预报雷达回波的强度变化和运动方向上均优于传统方法,展示了良好的应用前景. ...
... ConvLSTM(a)和 TrajGRU(b)中卷积连接的差异(引自Shi et al., 2017b)Differences in the way of convolution layers connections in ConvLSTM (a) and TrajGRU (b)(from Shi et al., 2017b)Fig.92.1.3 基于传统光学图像的识别监测
Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
... Differences in the way of convolution layers connections in ConvLSTM (a) and TrajGRU (b)(from Shi et al., 2017b)Fig.92.1.3 基于传统光学图像的识别监测
Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
A stochastic approximation method
1
1971
... 模型中第t次迭代时待优化的参数通过SGD(Sinha and Griscik, 1971)进行更新以得到: ...
Striving for simplicity: The all convolutional net
1
2014
... 与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战.目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制.此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等. ...
Going deeper with convolutions
2
2015
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
... 然而,全连接层存在参数量过大的缺陷,易导致训练缓慢、模型过拟合.为解决这些问题,Dropout技术(Hinton et al., 2012)被广泛应用,其核心理念是在训练过程中随机让部分神经元失活(即输出为零),从而使得网络结构在每次迭代训练中发生细微改变,降低神经元间的相互依赖,从而增强模型的泛化能力.此外,一些较新的网络模型如网中网(Network In Network,NIN)、GoogLeNet和ResNet等采用全局平均池化替代全连接层,有效减少了模型的参数量(Lin et al., 2013;Szegedy et al., 2015;He et al., 2016). ...
1
2012
... 式中:为避免分母为零的小量.AdaGrad的步长在陡峭方向很小,而在平缓方向变大,加速模型收敛.然而,由于未考虑迭代衰减,随着二阶动量的不断增大,学习率逐渐趋近于0,可能导致训练提前结束.RMSProp方法(Tieleman and Hinton, 2012)引入衰减系数使二阶动量成为固定时间窗口内的累积,防止学习率过早衰减.但随着时间窗口的变化,数据可能存在巨变,使得vt时大时小,不再是单调变化,可能导致训练后期学习率的震荡,模型无法收敛.Adam和Nadam方法(Kingma et al., 2014;Dozat, 2016)结合上述两类优化器,引入一阶和二阶动量,关注梯度方向的同时调整学习率大小,为达到最优性能提供了均衡方法.Ruder(2016)对上述优化器进行了更为详细的介绍. ...
DeepSD: Generating high resolution climate change projections through single image super-resolution
Deep learning parameterization of the tropical cyclone boundary layer
1
2023
... Wang和Tan(2023)基于1D-CNN开发了一种新的热带气旋边界层湍流通量参数化方案的深度学习模型,该模型的性能明显优于传统的YSU方案(Yonsei University Scheme).陈锦鹏等(2024)选取了包括CNN在内的4种机器学习算法模拟湿物理参数化方案,发现这些模型均能较好地模拟传统湿物理参数化方案的温湿效应.但这些研究仅进行了离线检验,并未实际应用于模式的在线运行.Wang等(2022)利用残差网络拟合超参数化大气环流模式(Super-parameterized Community Atmosphere Model, SPCAM)中云解析模型的结果,以代替传统CAM5中的湿物理和辐射过程的参数化方案,并开发了一个耦合器用于数值模式和神经网络的信息传递,提出了神经网络参数化大气环流模式(Neural Network Integrated Community Atmosphere Model, NNCAM),实现了神经网络参数化的在线运行(图12),模拟效果接近SPCAM,明显优于传统的CAM5,且在计算量上大幅减少. ...
Stable climate simulations using a realistic general circulation model with neural network parameterizations for atmospheric moist physics and radiation processes
3
2022
... Wang和Tan(2023)基于1D-CNN开发了一种新的热带气旋边界层湍流通量参数化方案的深度学习模型,该模型的性能明显优于传统的YSU方案(Yonsei University Scheme).陈锦鹏等(2024)选取了包括CNN在内的4种机器学习算法模拟湿物理参数化方案,发现这些模型均能较好地模拟传统湿物理参数化方案的温湿效应.但这些研究仅进行了离线检验,并未实际应用于模式的在线运行.Wang等(2022)利用残差网络拟合超参数化大气环流模式(Super-parameterized Community Atmosphere Model, SPCAM)中云解析模型的结果,以代替传统CAM5中的湿物理和辐射过程的参数化方案,并开发了一个耦合器用于数值模式和神经网络的信息传递,提出了神经网络参数化大气环流模式(Neural Network Integrated Community Atmosphere Model, NNCAM),实现了神经网络参数化的在线运行(图12),模拟效果接近SPCAM,明显优于传统的CAM5,且在计算量上大幅减少. ...
... SPCAM(a)和NNCAM(b)的工作流程图(引自Wang et al., 2022)Workflow diagram of the SPCAM (a) and NNCAM (b)(from Wang et al., 2022)Fig.12
Aggregated residual transformations for deep neural networks
1
2017
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
Empirical evaluation of rectified activations in convolutional network
1
2015
... 为应对ReLU的缺陷,研究者提出了多种变体,如LReLU、PReLU和RReLU(He et al., 2015; Xu et al., 2015),这些变体试图保持ReLU的优点同时减少其缺点.此外,结合ReLU和sigmoid函数优点的指数修正单元(Exponential Linear Unit,ELU)及其变体CELU、SELU(Clevert et al., 2015;Barron, 2017;Klambauer et al., 2017)也被开发出来,以提高训练效率. ...
MARVAir: Meteorology augmented residual-based visual approach for crowdsourcing air quality inference
3
2022
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
... 天空图像三通道重构流程图(引自Yao et al., 2022)Reconstruction process of three channels of sky image (from Yao et al., 2022)Fig.102.2 大数据集中的极端事件检测
... 池化层是CNN中用于特征降维的基本结构,其特征图上的神经元通过池化窗口与前一层的局部区域相连,通过减小特征图的尺寸来简化信息,但不改变特征图数量.与卷积层类似,池化窗口在输入特征图上按一定步长进行滑动采样,但一般不重叠.常见的池化方法有平均池化和最大池化(图5),即分别取池化窗口内的平均值或最大值作为输出.此外,还有如混合池化、随机池化和全局池化等更多池化方法(Lin et al., 2013;Zeiler and Fergus, 2013;Yu et al., 2014),这些方法在特定应用中可能提供额外的优势. ...
Comparison of SGD (a) and SGDM (b)(from Yu et al., 2014)Fig.8
尽管SGDM加速了收敛,但仍可能陷入局部最优解.NAG方法(Nesterov, 1983)提供了解决方案,通过计算累积梯度方向下降后的梯度作为当前下降方向,有利于跳出局部最优解.上述优化器的学习率在优化过程中是恒定的,AdaGrad方法(Duchi et al., 2011)通过引入二阶动量vt来调整学习率: ...
... Comparison of SGD (a) and SGDM (b)(from Yu et al., 2014)Fig.8
尽管SGDM加速了收敛,但仍可能陷入局部最优解.NAG方法(Nesterov, 1983)提供了解决方案,通过计算累积梯度方向下降后的梯度作为当前下降方向,有利于跳出局部最优解.上述优化器的学习率在优化过程中是恒定的,AdaGrad方法(Duchi et al., 2011)通过引入二阶动量vt来调整学习率: ...
Stochastic pooling for regularization of deep convolutional neural networks
1
2013
... 池化层是CNN中用于特征降维的基本结构,其特征图上的神经元通过池化窗口与前一层的局部区域相连,通过减小特征图的尺寸来简化信息,但不改变特征图数量.与卷积层类似,池化窗口在输入特征图上按一定步长进行滑动采样,但一般不重叠.常见的池化方法有平均池化和最大池化(图5),即分别取池化窗口内的平均值或最大值作为输出.此外,还有如混合池化、随机池化和全局池化等更多池化方法(Lin et al., 2013;Zeiler and Fergus, 2013;Yu et al., 2014),这些方法在特定应用中可能提供额外的优势. ...
Visualizing and understanding convolutional networks
2
2014
... 与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战.目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制.此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等. ...
... 尽管CNN在大气科学问题的研究中显示出应用潜力,但其作为一个黑箱模型的内部工作机制难以解释,这在科学研究和实际应用中可能构成障碍,特别是在需要理解模型预测依据的情况下.因此,发展可解释性人工智能(Explainable Artificial Intelligence,XAI)技术变得尤为重要.这包括通过可视化工具和解释算法提高模型的透明度,帮助研究人员和决策者更好地理解模型的行为和预测结果.例如Deconv方法(Zeiler and Fergus, 2014)能够将CNN每层得到的最大激活的特征图映射回输入层的像素空间,揭示网络每层学习到的特征;Grad-CAM方法(Selvaraju et al., 2020)利用CNN的梯度信息生成热力图,突出显示输入图像中对特定预测结果贡献最大的区域. ...
CloudNet: Ground-based cloud classification with deep convolutional neural network
1
2018
... 云是大气中的重要组成部分,其特性如存在与否、位置、高度和覆盖率等对天气预报具有重要意义.地基云观测为气象研究提供了更全面的云微观结构信息,其中,地基云自动分类技术是关键,Shi等(2017a)利用视觉几何组网络(Visual Geometry Group Network,VGG)对地基云图进行特征提取并分类,浅层特征与深层特征在云分类任务中的表现相当.这可能是因为云分类中精细的纹理信息比高级语义信息更为重要,VGG提取的浅层特征足以描述云的纹理信息,且其分类效果优于多数传统方法.Zhang和Liu等(2018)构建了卷云、积云、层云、雨云数据集(Cirrus Cumulus Stratus Nimbus, CCSN),将云基于气象标准分为10类,首次将飞行轨迹纳入地基云分类任务,并使用该数据集训练得到一个简单有效的CNN模型——CloudNet.此外,Zhao等(2019)利用3D-CNN模型对连续时间间隔的地基云图进行特征提取,并成功预测了太阳直接辐射的变化,其效果超越了传统方法.Byun等(2023)提出了一个先分类后回归的CNN模型用于预测日间降水量,该模型先判断是否会有降水,若无则输出降水量为0,有则继续预测降水量.此种策略不仅提高了预测准确性,还缩短了推理时间. ...
ShuffleNet: An extremely efficient convolutional neural network for mobile devices
1
2018
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...
A CNN-RNN architecture for multi-label weather recognition
1
2018
... Elhoseiny等(2015)基于AlexNet微调得到的Weather CNN在晴天和阴天的图片场景分类,其准确率82.2%明显超过了传统特征工程方法(53.1%).然而,将天气分类视作单标签分类问题并不合适,因为不同的天气类型可能同时出现,且某些天气之间存在依存关系(Lu et al., 2014).因此,Zhao等(2018)提出了结合CNN和LSTM的多标签天气识别模型.此外,Giyenko等(2018)利用CNN模型对监控摄像头的拍摄画面进行大气能见度的识别;Kopp等(2019)使用基于掩膜区域卷积网络(Mask Region-based Convolutional Neural Network,Mask-R-CNN)的模型从延时相机拍摄的测量杆照片中自动测量积雪厚度,夜间的检测效果尤其优于传统方法;洪思弟等(2020)通过DenseNet分析相机拍摄的降雨图像,识别降雨强度,该方法突破了传统站点监测的区域限制,并在精度上优于雷达监测;Yao等(2022)结合手机拍摄的户外天空图片及附近气象站点的观测数据,利用2D-CNN和1D-CNN对大气中的PM2.5质量浓度进行监测.由于手机图片的质控较差、图像的暗通道受颗粒物散射的影响(He et al., 2011)及需将建筑等遮挡物与天空区分开(Feng et al., 2017)等,实验中采用暗通道提取、遮挡物过滤及图片去色等技术重新构建图片的三通道(图10),以保证模型能准确提取特征.袁雅涵等(2023)构建了山东省降水粒子图像数据集,开发了一个基于EfficientNet v2的降水粒子识别模型,并验证了其有效性. ...
3D-CNN-based feature extraction of ground-based cloud images for direct normal irradiance prediction
1
2019
... 云是大气中的重要组成部分,其特性如存在与否、位置、高度和覆盖率等对天气预报具有重要意义.地基云观测为气象研究提供了更全面的云微观结构信息,其中,地基云自动分类技术是关键,Shi等(2017a)利用视觉几何组网络(Visual Geometry Group Network,VGG)对地基云图进行特征提取并分类,浅层特征与深层特征在云分类任务中的表现相当.这可能是因为云分类中精细的纹理信息比高级语义信息更为重要,VGG提取的浅层特征足以描述云的纹理信息,且其分类效果优于多数传统方法.Zhang和Liu等(2018)构建了卷云、积云、层云、雨云数据集(Cirrus Cumulus Stratus Nimbus, CCSN),将云基于气象标准分为10类,首次将飞行轨迹纳入地基云分类任务,并使用该数据集训练得到一个简单有效的CNN模型——CloudNet.此外,Zhao等(2019)利用3D-CNN模型对连续时间间隔的地基云图进行特征提取,并成功预测了太阳直接辐射的变化,其效果超越了传统方法.Byun等(2023)提出了一个先分类后回归的CNN模型用于预测日间降水量,该模型先判断是否会有降水,若无则输出降水量为0,有则继续预测降水量.此种策略不仅提高了预测准确性,还缩短了推理时间. ...
Learning deep features for discriminative localization
1
2016
... 与此同时,CNN一直被称为“黑盒模型”,其可解释性仍存在挑战.目前,通过反卷积(Deconvolution,Deconv)、导向反向传播(Guided-Backpropagation)和类激活映射(Class Activation Mapping,CAM)(Zeiler and Fergus, 2014;Springenberg et al., 2014;Zhou et al., 2016)等方法,研究者能够一定程度上揭示模型的判断依据和工作机制.此外,为了实现像素级分类,Long等(2015)提出了全卷积网络(Fully Convolutional Networks,FCN),催生了更多基于CNN的语义分割模型,如U-Net、SegNet、DeepLab(Ronneberger et al., 2015;Badrinarayanan et al., 2017;Chen et al., 2018)等. ...
Forecasting different types of convective weather: A deep learning approach
1
2019
... 大气科学领域,数据通常具有高维性、复杂性和不均衡性.关键变量的数据可能稀缺或噪声较多,这使得训练高精度的CNN模型变得更加困难.为了应对数据的高维性和复杂性,可以探索更高效的特征选择和降维方法.例如,自动编码器和主成分分析(陈锦鹏等, 2021)可以帮助提取主要特征并降低维度,从而降低计算复杂度.此外,基于领域知识的特征工程也能显著提升模型性能,通过合理选择和组合特征,使模型更易捕捉大气过程中的关键模式.针对数据样本不平衡问题,重采样技术(Zhou et al., 2019)及代价敏感学习方法可调整训练过程,使模型更关注不平衡数据中的稀有事件.在高质量数据稀缺的情况下,除加速构建高质量数据集外,也应开发更有效的数据预处理方法,如数据清洗、去噪、缺省值填补等,以及利用数据增强技术生成更多样化的代表性数据集. ...
Neural architecture search with reinforcement learning
1
2016
... CNN最早可追溯到Hubel和Wiesel(1962)对猫脑视觉系统的研究,他们发现猫的视觉皮层对信息的处理是一种层级结构,通过对简单信息的逐层提取得到高层次的抽象信息.接着,Fukushima(1980)仿造猫的视觉皮层设计了名为“neocognitron”的神经网络,尽管其细节与现代CNN有所不同,但已包含类似于卷积层和池化层的结构,被视为CNN的先驱.20世纪末,LeCun等(1998)提出了LeNet-5网络,并首次将反向传播算法(Rumelhart et al., 1986)用于训练,奠定了现代CNN的基础.随后,Hinton和Salakhutdinov(2006)提出了贪婪逐层预训练方法,并证明了其有效性,这标志当代深度学习的兴起.然而,直到Krizhevsky等(2017)将CNN运用于ILSVRC(ImageNet Large Scale Visual Recognition Challenge)竞赛,并赢得冠军,CNN才真正引起广泛关注.此后,网络精度持续提升,网络深度不断增加,如ResNet (Residual Network)、DenseNet (Densely Connected Convolutional Network)等(He et al., 2016;Huang et al., 2017),CNN的发展日趋完善(图1).研究者也开始关注网络宽度的改良以提高性能,如GoogLeNet和ResNeXt等(Szegedy et al., 2015;Xie et al., 2017).同时,为适应更广泛的应用需求,轻量级网络如MobileNet、ShuffleNet等(Howard et al., 2017;Zhang et al., 2018)应运而生.神经架构搜索(Neural Architecture Search,NAS)技术(Zoph and Le, 2016)作为一种自动化设计方法,减少了模型调优的难度,有望成为主流. ...