QUICK REVIEW

[論文レビュー] Effective and Efficient Dropout for Deep Convolutional Neural Networks

Shaofeng Cai, Jinyang Gao|arXiv (Cornell University)|Apr 6, 2019

Advanced Neural Network Applications参考文献 49被引用数 55

ひとこと要約

本論文はCNNのドロップアウトの変種を分析し、ドロップアウトとBNの衝突を特定し、Drop-Conv2dおよび関連するビルディングブロック（Drop-Neuron、Drop-Channel、Drop-Path）を提案して、CNNアーキテクチャ全体で最小限のオーバーヘッドでより良い正則化を実現する。

ABSTRACT

Convolutional Neural networks (CNNs) based applications have become ubiquitous, where proper regularization is greatly needed. To prevent large neural network models from overfitting, dropout has been widely used as an efficient regularization technique in practice. However, many recent works show that the standard dropout is ineffective or even detrimental to the training of CNNs. In this paper, we revisit this issue and examine various dropout variants in an attempt to improve existing dropout-based regularization techniques for CNNs. We attribute the failure of standard dropout to the conflict between the stochasticity of dropout and its following Batch Normalization (BN), and propose to reduce the conflict by placing dropout operations right before the convolutional operation instead of BN, or totally address this issue by replacing BN with Group Normalization (GN). We further introduce a structurally more suited dropout variant Drop-Conv2d, which provides more efficient and effective regularization for deep CNNs. These dropout variants can be readily integrated into the building blocks of CNNs and implemented in existing deep learning platforms. Extensive experiments on benchmark datasets including CIFAR, SVHN and ImageNet are conducted to compare the existing building blocks and the proposed ones with dropout training. Results show that our building blocks improve over state-of-the-art CNNs significantly, which is mainly due to the better regularization and implicit model ensemble effect.

研究の動機と目的

過学習を抑制し、汎化性能を向上させるための深いCNNに対する堅牢な正則化を促進する。
CNNにおけるドロップアウトの変種（ニューロン、チャネル、パス）と、それらのバッチ正規化およびデータ拡張との相互作用を体系的に分析する。
ドロップアウトを効果的かつ効率的に統合する統一的な畳み込みビルディングブロックを開発する。
推論時に再統合できる、スケーラブルでプラグアンドプレイ可能な正則化手法としてDrop-Conv2dを導入する。
提案されたブロックを用いて、標準ベンチマーク（CIFAR、SVHN、ImageNet）で広範な経験的利得を示す。

提案手法

チャネルレベルの操作に焦点を当てたsplit-transform-aggregateフレームワークでCNN変換を定式化する。
ドロップアウトの変種（Drop-Neuron、Drop-Channel、Drop-Path）を比較し、バッチ正規化とグループ正規化との相互作用を分析する。
ビルディングブロックで畳み込みの前にドロップアウトを配置し、勾配分散と分散シフトを低減する。
入力通りDrop-Conv2dを提案する。各チャネル接続をPパスに複製し、これらのパスにドロップアウトを適用し、推論時に再集約する。
既存のアーキテクチャへの適用を容易にする、ドロップアウトを統合した畳み込みビルディングブロック（Drop-Neuron、Drop-Channel）を提供する。
CIFAR、SVHN、ImageNetにわたるCNNアーキテクチャで提案ブロックを評価し、性能向上を示す。

実験結果

リサーチクエスチョン

RQ1CNNにおけるドロップアウトとバッチ正規化の相互作用はどうなるのか、そしてなぜ標準的なドロップアウトが畳み込みブロックで効果を発揮しないのか？
RQ2チャネルレベルおよびパスレベルのドロップアウト（Drop-Channel、Drop-Path）は、ニューロンレベルのドロップアウトよりCNNの正則化に効果的なのか？
RQ3最小のオーバーヘッドでより良い正則化を得られるように、CNNブロックにドロップアウトを統合できるか？
RQ4Drop-Conv2dはCIFAR、SVHN、ImageNetなどの標準的なCNNアーキテクチャで汎化性能を改善するか？

主な発見

ドロップチャネルとドロップパスは、畳み込みチャネル構造およびBNとの相互作用により、CNNの訓練で一般的にドロップニューロンよりも優れている。
ドロップアウトを畳み込み層の直前に配置することで分散シフトを低減し、BNを安定化させ、トレーニング効率を向上させる。
ドロップアウトを適用して各チャネル接続をPパスに複製し、推論時に再集約するDrop-Conv2dは、推論時のオーバーヘッドがほとんどないまま、より強力な正則化を提供する。
BNはドロップアウト下で分散シフトを引き起こす可能性があるが、ドロップアウトの適切な配置やBNをグループ正規化に置き換えることで緩和される。
実験では提案されたビルディングブロックがCIFAR、SVHN、ImageNetにおける最先端CNNよりも顕著な精度向上を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。