QUICK REVIEW

[論文レビュー] FreezeOut: Accelerate Training by Progressively Freezing Layers

Andrew Brock, Theodore Lim|arXiv (Cornell University)|Jun 15, 2017

Advanced Neural Network Applications参考文献 11被引用数 75

ひとこと要約

FreezeOutは、隠れ層を段階的に凍結しバックプロパゲーションから除外することでニューラルネットワークのトレーニングを加速し、一部のアーキテクチャで最小限の精度低下とともに最大で20%の実走時速を実現します。

ABSTRACT

The early layers of a deep neural net have the fewest parameters, but take up the most computation. In this extended abstract, we propose to only train the hidden layers for a set portion of the training run, freezing them out one-by-one and excluding them from the backward pass. Through experiments on CIFAR, we empirically demonstrate that FreezeOut yields savings of up to 20% wall-clock time during training with 3% loss in accuracy for DenseNets, a 20% speedup without loss of accuracy for ResNets, and no improvement for VGG networks. Our code is publicly available at https://github.com/ajbrock/FreezeOut

研究の動機と目的

収束が早くパラメータ数が少ない層を活用して、トレーニング時間を短縮する動機付け。
トレーニング中に層を段階的に凍結する層別学習率スケジュールを提案する。
DenseNets、Wide ResNets、VGGを横断して手法を評価し、どこでスピードアップが得られ、どこでそうでないかを特定する。
一般的なCNNアーキテクチャにFreezeOutを適用するための実用的なデフォルトとガイドラインを提供する。

提案手法

層別スケジュールでリスタートを行わずコサインアニーリング学習率を適用する。
最初の層を時刻t0で凍結し、後続の層を後の時刻tiで段階的に凍結する。
任意で層ごとに初期学習率をスケーリングし、tiの値を立方して後ろの層をバイアスする。
層ごとの学習率スケジュールを計算する: ai(t)=0.5*ai(0)*(1+cos(pi*t/ti)).
学習率が0に減衰した時点でバックパスから層を除外し、1反復あたりの計算コストを下げる。
4つのスケジューリングの組み合わせを提供する：tiの進行を線形と立方の2通り、学習率の未スケール vs スケールの2通り、さらに推奨デフォルト設定を含む。

実験結果

リサーチクエスチョン

RQ1一般的なCNNアーキテクチャ全体で、層を段階的に凍結することは、許容できない精度低下を伴わずにトレーニング時間を短縮できるか。
RQ2スピードアップと精度の最良のトレードオフを提供するスケジューリング変種はどれか（線形/立方、スケール有/無）。
RQ3Skip接続の有無に関わらず、DenseNets/ResNetsとVGGのアーキテクチャでFreezeOutはどのように機能するか。

主な発見

テストしたネットワーク全体で最大20%の実走時のスピードアップ。
DenseNetsは特定の構成でFreezeOutによりテストエラーが最大約3%増加。
ResNetsは一部設定で約20%のスピードアップを達成し、精度の損失はなし。
VGGネットワークはFreezeOutからの改善を示さない。
学習率スケーリングを備えた立方スケジューリングが、約3%の精度低下内で最大のスピード向上を得るために推奨される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。