[论文解读] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
本文提出一个卷积神经网络的均值场理论,用以识别在不使用结构性技巧的情况下使普通CNN能够训练到多达10,000层的初始化方案。它引入正交初始化和 Delta-Orthogonal 初始化,以实现动力学等度和跨频率的信号传播平衡。
In recent years, state-of-the-art methods in computer vision have utilized increasingly deep convolutional neural network architectures (CNNs), with some of the most successful models employing hundreds or even thousands of layers. A variety of pathologies such as vanishing/exploding gradients make training such deep networks challenging. While residual connections and batch normalization do enable training at these depths, it has remained unclear whether such specialized architecture designs are truly necessary to train deep CNNs. In this work, we demonstrate that it is possible to train vanilla CNNs with ten thousand layers or more simply by using an appropriate initialization scheme. We derive this initialization scheme theoretically by developing a mean field theory for signal propagation and by characterizing the conditions for dynamical isometry, the equilibration of singular values of the input-output Jacobian matrix. These conditions require that the convolution operator be an orthogonal transformation in the sense that it is norm-preserving. We present an algorithm for generating such random initial orthogonal convolution kernels and demonstrate empirically that they enable efficient training of extremely deep architectures.
研究动机与目标
- 通过合适的初始化激发极深的普通CNN在没有残差连接或批量归一化的情况下是否可训练。
- 推导CNN信号传播的均值场理论并识别实现动力学等度的条件。
- 开发实现这些条件的实用初始化方案(正交和 Delta-Orthogonal)。
- 通过对标准基准数据集的实证验证,证明在所提出的初始化下可以训练超深CNN。
提出的方法
- 推导CNN的前向传播协方差递推,并研究其不动点及稳定性。
- 分析逐层雅可比矩阵及其奇异值分布,以联系到动力学等度。
- 使用受小波启发的方法构建随机正交卷积核。
- 通过在核中心集中方差来引入 Delta-Orthogonal 初始化,以在傅里叶模态上实现传播的平衡。
- 给出在MNIST和CIFAR-10上的实证验证,显示训练加速和深度极限。
实验结果
研究问题
- RQ1是否存在一种适当初始化使普通CNN在10,000层的深度下无需残差连接或批量归一化也能训练?
- RQ2哪些初始化条件能确保CNN前向信号传播的稳定性和动力学等度?
- RQ3在极深的CNN中,空间频率模态如何传播,初始化如何实现对它们的平衡?
- RQ4正交初始化和 Delta-Orthogonal 初始化是否能提升超深CNN的训练速度和泛化能力?
主要发现
- 普通CNN在理论动机初始化方案下可训练至10,000层。
- 正交卷积核显著提升训练速度和端到端雅可比的条件性。
- CNN在不同空间频率下表现出多重深度尺度,Delta-Orthogonal 初始化使所有频率的传播保持平衡。
- 在卷积核内的权重方差非均匀分布会改变模态传播,可能降低极深网络的泛化。
- Delta-Orthogonal 初始化在实验中实现任意深度且保持性能,而通用高斯初始化则失败。
- 在MNIST和CIFAR-10上的实证结果显示的训练进展和深度相关的泛化效应与理论一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。