Skip to main content
QUICK REVIEW

[論文レビュー] Deep Networks with Stochastic Depth

Gao Huang, Yu Sun|arXiv (Cornell University)|Mar 30, 2016
Advanced Neural Network Applications参考文献 28被引用数 287
ひとこと要約

この論文は、訓練中に層をランダムにドロップすることにより非常に深いResNet様ネットワークを訓練可能にする確率的深さ( stochastic depth )を提案し、1000層超の深いモデルをより速く訓練し、テスト精度を改善し、訓練を異なる深さの暗黙のアンサンブルとして扱う。

ABSTRACT

Very deep convolutional networks with hundreds of layers have led to significant reductions in error on competitive benchmarks. Although the unmatched expressiveness of the many layers can be highly desirable at test time, training very deep networks comes with its own set of challenges. The gradients can vanish, the forward flow often diminishes, and the training time can be painfully slow. To address these problems, we propose stochastic depth, a training procedure that enables the seemingly contradictory setup to train short networks and use deep networks at test time. We start with very deep networks but during training, for each mini-batch, randomly drop a subset of layers and bypass them with the identity function. This simple approach complements the recent success of residual networks. It reduces training time substantially and improves the test error significantly on almost all data sets that we used for evaluation. With stochastic depth we can increase the depth of residual networks even beyond 1200 layers and still yield meaningful improvements in test error (4.91% on CIFAR-10).

研究の動機と目的

  • とても深いCNNの訓練課題(勾配消失、前方フローの減衰、長い訓練時間)を動機づけて解決する。
  • 訓練時間を短縮しつつ、テスト時には全深度を維持する残差ネットワークに基づく、簡潔で互換性のある訓練手順(確率的深さ)を提案する。
  • 確率的深さが複数のデータセット(CIFAR-10/100、SVHN、ImageNet)で訓練時間を短縮し、テスト誤差を改善することを示す。
  • 本手法が暗黙のアンサンブルとして機能し、ドロップアウトに類似した正則化効果を提供し、バッチ正規化を備えたネットワークに有益であることを示す。

提案手法

  • ResBlockごとに訓練パスの有効性を示すベルヌーイ変数 b_l を導入する(b_l ∈ {0,1})。
  • 各ブロックの生存確率 p_l を定義し、 inactive なブロックを回避するために、ブロックの経路で f_l(H_{l-1}) を 0 に置換し、アイデンティティのスキップ接続を実質的に使用する。
  • 線形減衰規則 p_l = 1 - (l/L)(1 - p_L) を用い、p_0 = 1 から p_L(通常 p_L = 0.5)へと進む。
  • ミニバッチごとに有効深度を下げて非常に深いResNetを訓練し、異なる部分ネットワークをサンプリングする。テスト時には全深度を維持しつつ、訓練参加を反映して出力を p_l でスケールする(式 5)。
  • 確率的深さは訓練を速くする(深さを平均化した前方/後方伝搬)とともに、暗黙のアンサンブルと正則化効果により汎化を高める。
  • CIFAR-10/100、SVHN、ImageNet で実証的に評価し、 stochastic depth が標準の ResNet よりも利益を上げる 1202-層ネットワークの実験も含む。

実験結果

リサーチクエスチョン

  • RQ1確率的深さは 1000 層を超えるネットワークの訓練を可能にし、テスト精度を維持または向上できるか。
  • RQ2訓練時にネットワークを短くすると訓練時間は短縮され、性能を犠牲にしないか。
  • RQ3確率的深さは勾配フローと訓練ダイナミクスにどう影響し、定時深度のResNetと比較してどうなるか。
  • RQ4本手法は有効な正則化として機能し、複数の深さを暗黙的にアンサンブルするか。

主な発見

データセットCIFAR10+ (%)CIFAR100+ (%)SVHN (%)ImageNet (%)
Maxout9.38-2.47-
DropConnect9.32-1.94-
Net in Net8.81-2.35-
Deeply Supervised7.97-1.9233.70
Frac. Pool-27.62--
All-CNN7.25--41.20
Learning Activation7.5130.83--
R-CNN7.09-1.77-
Scalable BO6.3727.401.77-
Highway Network7.6032.24--
Gen. Pool6.05-1.6928.02
ResNet with constant depth6.4127.761.8021.78
ResNet with stochastic depth5.2524.981.7521.98
  • 確率的深さで訓練した場合、訓練時間が大幅に短縮される(CIFAR-10/100およびSVHNで約 25%)。
  • 確率的深さを備えたResNetは、CIFAR-10(5.25% 対 6.41%)、CIFAR-100(24.98% 対 27.76%)、SVHN(1.75% 対 1.80%)で定数深度の対比より低いテスト誤差を達成。
  • CIFAR-10 では、確率的深さを備えた 1202-層のResNet が 4.91% のテスト誤差を達成し、当時の新記録となり 110-層版より改善を示す。
  • CIFAR-100 では、確率的深さにより誤差が 27.76% から 24.98% に低下し(当時の単一モデルの最先端性能)、s.
  • ImageNet の結果は、非常に深いネットワーク(152-層 ResNet)に適用可能であることを示し、確率的深さを用いると検証誤差が 21.78% および 21.98% と報告され、より長い訓練で大規模モデルでの潜在的改善を示す。
  • この手法は勾配フローを強化(学習率の低下後の勾配の大きさが大きくなる)し、Batch Normalization を含む場合でもドロップアウトに類似した強力な正則化効果を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。