[論文レビュー] Snapshot Ensembles: Train 1, get M for free
この論文は cyclic cosine 学習率スケジュールを用いて、複数の高性能スナップショットを得る1つのモデルを訓練し、テスト時にそれらをアンサンブルして追加の訓練コストをかけずに精度を向上させる。
Ensembles of neural networks are known to be much more robust and accurate than individual networks. However, training multiple deep networks for model averaging is computationally expensive. In this paper, we propose a method to obtain the seemingly contradictory goal of ensembling multiple neural networks at no additional training cost. We achieve this goal by training a single neural network, converging to several local minima along its optimization path and saving the model parameters. To obtain repeated rapid convergence, we leverage recent work on cyclic learning rate schedules. The resulting technique, which we refer to as Snapshot Ensembling, is simple, yet surprisingly effective. We show in a series of experiments that our approach is compatible with diverse network architectures and learning tasks. It consistently yields lower error rates than state-of-the-art single models at no additional training cost, and compares favorably with traditional network ensembles. On CIFAR-10 and CIFAR-100 our DenseNet Snapshot Ensembles obtain error rates of 3.4% and 17.4% respectively.
研究の動機と目的
- 高精度アンサンブルの訓練コストを削減する動機づけ。
- SGD が複数の局所極小点を訪れることを活用して明示的なスナップショットを作成。
- 周期的 cosine 学習率スケジュールを使用して複数のモデルスナップショットを生成・保存。
- アンサンブルが追加の訓練時間なしでさまざまなアーキテクチャとデータセットで性能を向上させることを示す。
- データ拡張、確率的深さ、バッチ正規化との互換性を示す。
提案手法
- cosine アニーリング・スケジュールを用いて M 回の学習率サイクルを通じて単一ネットワークを訓練する。
- 各サイクルの終わりでモデルパラメータのスナップショットを取得して保存する。
- テスト時に、最後の m 個のスナップショットを平均してアンサンブルを形成する。
- Loshchilov & Hutter (2016) による周期的学習率関数でサイクル長とリスタート比を制御する。
- 総訓練時間を標準的な単一モデル訓練と同じに保ち、追加の訓練コストなしでアンサンブルの利点を得る。
- ResNet、Wide-ResNet、DenseNet アーキテクチャを CIFAR-10、CIFAR-100、SVHN、Tiny ImageNet、ImageNet で評価する。
実験結果
リサーチクエスチョン
- RQ1単一の最適化経路に沿って見つかった複数の局所極小点から訓練コストを増やすことなくアンサンブルを形成できるか?
- RQ2周期的 cosine 学習率スケジュールはアンサンブルに適した多様で補完的なスナップショットを生み出すか?
- RQ3サイクル数 M とリスタートスケールがデータセットとアーキテクチャ全体でアンサンブルの性能に与える影響は?
- RQ4同じ訓練予算の下で Snapshot Ensemble は従来のアンサンブルや暗黙的なアンサンブル手法とどう比較されるか?
主な発見
| 手法 | CIFAR-10 | CIFAR-100 | SVHN | Tiny ImageNet |
|---|---|---|---|---|
| Single model | 5.52 | 28.02 | 1.96 | 46.50 |
| NoCycle Snapshot Ensemble | 5.49 | 26.97 | 1.78 | 43.69 |
| SingleCycle Ensembles | 6.66 | 24.54 | 1.74 | 42.60 |
| Snapshot Ensemble ( α0=0.1 ) | 5.73 | 25.55 | 1.63 | 40.54 |
| Snapshot Ensemble ( α0=0.2 ) | 5.32 | 24.19 | 1.66 | 39.40 |
| Wide-ResNet-32 (Single model) | 5.43 | 23.55 | 1.90 | 39.63 |
| Dropout | 4.68 | 22.82 | 1.81 | 36.58 |
| NoCycle Snapshot Ensemble | 5.18 | 22.81 | 1.81 | 38.64 |
| SingleCycle Ensembles | 5.95 | 21.38 | 1.65 | 35.53 |
| Snapshot Ensemble ( α0=0.1 ) | 4.41 | 21.26 | 1.64 | 35.45 |
| Snapshot Ensemble ( α0=0.2 ) | 4.73 | 21.56 | 1.51 | 32.90 |
| DenseNet-40 (Single model) | 5.24 ∗ | 24.42 ∗ | 1.77 | 39.09 |
| Dropout | 6.08 | 25.79 | 1.79 ∗ | 39.68 |
| NoCycle Snapshot Ensemble | 5.20 | 24.63 | 1.80 | 38.51 |
| SingleCycle Ensembles | 5.43 | 22.51 | 1.87 | 38.00 |
| Snapshot Ensemble ( α0=0.1 ) | 4.99 | 23.34 | 1.64 | 37.25 |
| Snapshot Ensemble ( α0=0.2 ) | 4.84 | 21.93 | 1.73 | 36.61 |
| DenseNet-100 (Single model) | 3.74 ∗ | 19.25 ∗ | - | - |
| Dropout | 3.65 | 18.77 | - | - |
| NoCycle Snapshot Ensemble | 3.80 | 19.30 | - | - |
| SingleCycle Ensembles | 4.52 | 18.38 | - | - |
| Snapshot Ensemble ( α0=0.1 ) | 3.57 | 18.12 | - | - |
| Snapshot Ensemble ( α0=0.2 ) | 3.44 | 17.41 | - | - |
- Snapshot Ensembles は、同じ予算で訓練されたベースラインと比較して誤り率を一貫して低減する。
- DenseNet を用いた CIFAR-10 および CIFAR-100 では、それぞれ 3.44% と 17.41% の誤りを報告する(特定の設定で)。
- ImageNet の ResNet-50 では、2 サイクルの Snapshot Ensemble が 23.33%、単一モデルが 24.01%。
- 2–8 サイクルを用いたアンサンブルは単一モデルを上回ることが多いが、非常に大きなアンサンブルでの収益には減衰がある。
- NoCycle 系は効果的な多様化のための周期的学習率スケジュールの重要性を示す点で劣る。
- 本手法は最小またはゼロの追加訓練コストで精度向上をもたらし、他の精度向上手法と併用可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。