[論文レビュー] SGDR: Stochastic Gradient Descent with Warm Restarts
確率的勾配降下法( SGD )にコサイン退焼を用いたウォームリスタートを導入し、ディープネットワークの学習速度と一般化を向上させ、CIFAR-10/100で最先端の結果を達成し、スナップショットアンサンブルを実現。
Restart techniques are common in gradient-free optimization to deal with multimodal functions. Partial warm restarts are also gaining popularity in gradient-based optimization to improve the rate of convergence in accelerated gradient schemes to deal with ill-conditioned functions. In this paper, we propose a simple warm restart technique for stochastic gradient descent to improve its anytime performance when training deep neural networks. We empirically study its performance on the CIFAR-10 and CIFAR-100 datasets, where we demonstrate new state-of-the-art results at 3.14% and 16.21%, respectively. We also demonstrate its advantages on a dataset of EEG recordings and on a downsampled version of the ImageNet dataset. Our source code is available at https://github.com/loshchil/SGDR
研究の動機と目的
- 深層ニューラルネットワークの学習におけるSGDの任意時点での遅い性能を動機づけ、解決する。
- 収束速度を改善するために、コサインアニーリングを用いた簡易なウォームリスタート機構を提案する。
- CIFAR-10/100での改善を実証し、EEGデータおよびダウンサンプリングされたImageNetでの利点を示す。
- SGDRの軌跡中に取得したスナップショットからのアンサンブル効果を探る。
- より高速なアーキテクチャ探索とトレーニング効率の実現可能性を強調する。
提案手法
- 事前に定義された間隔で学習率を増加させて再起動することで、モデルウェイトをリセットせずにSGDのウォームリスタートをシミュレートする。
- 各リスタート内で、T_iエポックにわたり学習率を最大値から最小値へコサインアニーリングする: eta_t = eta_min^i + 0.5*(eta_max^i - eta_min^i)*(1 + cos(T_cur/T_i * pi)).
- T_multという乗数でT_iを成長させ、任意時点での性能を改善し、良い検証誤差の獲得を速める。
- リスタート間でeta_max/eta_minを同一にした単一または数回のSGDR実行を用いて、ハイパーパラメータ調整を減らす。
- リスタート前に取得したSGDRスナップショットからモデルをアンサンブルして精度を向上させることもできる。
- SGDRを標準の学習率スケジュールと比較し、WRNアーキテクチャでベースライン結果を再現する。
実験結果
リサーチクエスチョン
- RQ1SGDRは標準のSGDスケジュールと比較して、ターゲットの検証誤差へ到達するまでの訓練効率を改善するか?
- RQ2コサインアニーリング付きウォームリスタートと増加するT_iを伴うリスタートは、収束を速め、一般化を改善するか?
- RQ3SGDR軌道からのスナップショットアンサンブルは、単一実行モデルや独立した実行からのアンサンブルより顕著な利得をもたらすか?
- RQ4CIFARを超える領域(例: EEGデータ)やダウンサンプリングされたImageNet構成にもSGDRの利得は適用できるか?
- RQ5速度と精度のバランスを取る実用的なハイパーパラメータ(初期学習率、T_i、T_mult)は何か?
主な発見
- SGDRはCIFAR-10で競合的な検証誤差をより速く達成し(約4%領域)、CIFAR-100では約20%に対してデフォルトスケジュールと比較して優れている。
- SGDRスナップショットから構成されたアンサンブルは最先端に類する改善をもたらす(例: CIFAR-10で3.14%のテスト誤り、CIFAR-100で16.21%、N=16回の実行とM=3スナップショット)。
- SGDRはWRN-28-20のようなより広いネットワークの訓練を可能にし、標準スケジュールで訓練された狭いネットワークと同等または短い予算でより良い精度を達成する。
- SGDRからのスナップショットは多様で有用なアンサンブルメンバーを提供し、多くの設定で独立した実行から構築された同等のアンサンブルを上回る。
- 予備実験はSGDRがEEGデータセットおよびダウンサンプリングされたImageNetで性能を向上させることを示しており、適用範囲が広いことを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。