[论文解读] Data-dependent Initializations of Convolutional Neural Networks
本文提出了一种卷积神经网络(CNN)的数据相关初始化方法,该方法根据训练数据的统计特性对网络权重进行缩放,以确保各层之间梯度流动的均匀性。通过分析激活统计特性并应用逐层重缩放,该方法加速了训练收敛速度,在图像分类和目标检测任务上达到或超过当前最优的自监督预训练性能,将预训练时间减少高达1,000倍,同时在小样本数据集上提升了泛化能力。
Convolutional Neural Networks spread through computer vision like a wildfire, impacting almost all visual tasks imaginable. Despite this, few researchers dare to train their models from scratch. Most work builds on one of a handful of ImageNet pre-trained models, and fine-tunes or adapts these for specific tasks. This is in large part due to the difficulty of properly initializing these networks from scratch. A small miscalibration of the initial weights leads to vanishing or exploding gradients, as well as poor convergence properties. In this work we present a fast and simple data-dependent initialization procedure, that sets the weights of a network such that all units in the network train at roughly the same rate, avoiding vanishing or exploding gradients. Our initialization matches the current state-of-the-art unsupervised or self-supervised pre-training methods on standard computer vision tasks, such as image classification and object detection, while being roughly three orders of magnitude faster. When combined with pre-training methods, our initialization significantly outperforms prior work, narrowing the gap between supervised and unsupervised pre-training.
研究动机与目标
- 为解决从零开始训练深层CNN时收敛性差以及梯度消失/爆炸的问题。
- 识别影响小样本数据集泛化性能的关键数据驱动激活统计特性。
- 开发一种简单、快速的初始化方法,实现更快且更稳定的训练,无需预训练或网络架构修改。
- 通过提升下游任务在标签数据有限情况下的初始化质量,减少对ImageNet预训练的依赖。
提出的方法
- 该方法通过计算小批量训练数据中特征图的均值和标准差,来估计每层的激活统计特性。
- 通过调整卷积层权重的缩放因子,使所有层的输出激活方差大致相等,实现逐层重缩放。
- 通过基于输入统计特性的权重矩阵缩放,使梯度范数在各层间大致保持一致,从而强制实现梯度范数的均匀分布。
- 利用特征图的k-means聚类来估计有效感受野,并优化每层的缩放因子。
- 该方法在训练前应用,仅需对小部分数据子集进行一次前向传播,计算效率高。
- 该方法无需反向传播或额外损失项,因此可兼容任意CNN架构。
实验结果
研究问题
- RQ1基于数据的初始化能否在无需预训练的情况下提升CNN的训练收敛性和泛化能力?
- RQ2特征激活的统计特性如何影响微调过程中的梯度流动与模型性能?
- RQ3一种简单、快速的初始化方法能否在下游任务上达到或超越复杂自监督预训练方法的性能?
- RQ4在低数据场景下,基于数据的初始化是否能减少对ImageNet预训练的依赖?
- RQ5该方法能否在不进行架构修改(如不使用辅助分类器)的情况下,实现更深网络的稳定训练?
主要发现
- 所提出的初始化方法将预训练时间缩短了三个数量级——仅需54秒,同时在PASCAL VOC2007图像分类任务上达到56.6%的top-1准确率,与当前最优的自监督方法相当。
- 当与无监督预训练(如Doersch et al., 2015)结合时,该方法在PASCAL VOC2007检测任务上达到65.3%的mAP,优于先前工作。
- 在ImageNet上,该方法在训练初期阶段使收敛速度加快最多10倍,前10,000次迭代中误差下降更快,优于标准初始化方法。
- 基于k-means的初始化方法优于随机初始化,并在100k次迭代后达到与参考ImageNet预训练模型相当的性能。
- 在CaffeNet中,移除LRN层后性能未下降,表明在使用该初始化方法时,归一化层可能并非必要,权重适当缩放即可替代其作用。
- 在GoogLeNet中,该方法使单分类器训练成为可能(无需辅助头),其收敛速度与原始的三头架构相当,证明了其在深层网络中的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。