[论文解读] Improving neural networks by preventing co-adaptation of feature detectors
Dropout 在训练过程中定期舍弃隐藏单元,以防止协同适应,有效地对许多模型进行平均,从而在多样化任务上改善泛化。
When a large feedforward neural network is trained on a small training set, it typically performs poorly on held-out test data. This "overfitting" is greatly reduced by randomly omitting half of the feature detectors on each training case. This prevents complex co-adaptations in which a feature detector is only helpful in the context of several other specific feature detectors. Instead, each neuron learns to detect a feature that is generally helpful for producing the correct answer given the combinatorially large variety of internal contexts in which it must operate. Random "dropout" gives big improvements on many benchmark tasks and sets new records for speech and object recognition.
研究动机与目标
- 在有限数据上训练神经网络时解决过拟合。
- 引入一种简单、可扩展的正则化技术(dropout),防止特征检测器之间的协同适应。
- 证明 dropout 能在多种基准数据集和网络结构上提升泛化能力。
提出的方法
- 在每个训练样本上以概率 0.5 随机丢弃每个隐藏单元,以防止对协同适应的依赖。
- 使用标准的随机梯度下降进行训练,但对每个隐藏单元的输入权重向量应用类似 L2 的约束,违反时重新归一化。
- 在测试时,使用包含所有隐藏单元的平均网络,并将输出权重减半以应对活跃单元数量的增加。
- 将 dropout 解释为一种高效的模型平均形式,相当于对指数数量的子网络的预测进行平均。
- 在多个数据集上将以 dropout 增强的网络与标准反向传播以及预训练方案进行比较。
- 可选地按单元调整 dropout 概率,并将学习型 dropout 作为专家混合方法进行探索。
实验结果
研究问题
- RQ1Dropout 是否能在不同领域减少过拟合并提升测试性能?
- RQ2对于不同架构和数据类型,应该如何配置 dropout(概率、逐单元自适应)?
- RQ3在神经网络中,dropout 与集成/模型平均解释之间的关系是什么?
- RQ4dropout 如何与预训练以及在大规模视觉任务中的卷积结构交互?
主要发现
- Dropout 在 MNIST 上在多种架构下显著提升测试性能,较标准反向传播降低误差率。
- 在 TIMIT 上,50% 隐藏单元 dropout 将帧分类错误率从 22.7% 降至 19.7%。
- 对于 CIFAR-10,当应用于深度 CNN 的最后一隐藏层时,dropout 将错误率从 18.5% 降到 15.6%。
- 在 ImageNet 中,五卷积层模型的顶层卷积层使用 dropout 后,错误率从 47.2% 降至 42.4%。
- 在 Reuters 文本数据上,采用 2000-2000-1000-50 架构的 dropout 将错误率从 31.05% 降至 29.62%。
- Dropout 倾向于学习更简单、协同适应较少的特征,如在 MNIST 可视化中所观察到的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。