Skip to main content
QUICK REVIEW

[論文レビュー] Loss Surfaces, Mode Connectivity, and Fast Ensembling of DNNs

Timur Garipov, Pavel Izmailov|arXiv (Cornell University)|Feb 27, 2018
Advanced Neural Network Applications参考文献 21被引用数 212
ひとこと要約

本論文は深層ニューラルネットワークの最適解が単純な低損失曲線で結ばれていることを示し、訓練時間が単一モデルと同程度で多様で高精度なアンサンブルを構築する Fast Geometric Ensembling (FGE) を提案する。

ABSTRACT

The loss functions of deep neural networks are complex and their geometric properties are not well understood. We show that the optima of these complex loss functions are in fact connected by simple curves over which training and test accuracy are nearly constant. We introduce a training procedure to discover these high-accuracy pathways between modes. Inspired by this new geometric insight, we also propose a new ensembling method entitled Fast Geometric Ensembling (FGE). Using FGE we can train high-performing ensembles in the time required to train a single model. We achieve improved performance compared to the recent state-of-the-art Snapshot Ensembles, on CIFAR-10, CIFAR-100, and ImageNet.

研究の動機と目的

  • DNNの損失ランドスケープの幾何構造を理解し、異なる最適解が低損失の経路によって連結されているかを検討する。
  • モデルの最適解間に高精度な経路を見つける実用的な手法を開発する。
  • 連結性の知見を活用して予測性能を向上させる効率的なアンサンブル手法を提案する。

提案手法

  • 独立して訓練された2つのネットワーク間のパラメトリック曲線に沿った平均損失を最小化する曲線探索手順を提案する。
  • ポリゴン連鎖とベジエ曲線を曲線のパラメータ化として用い、2つのウェイトベクトルを結ぶ。
  • 曲線に沿ってサンプリングすることで曲線平均損失を近似する目的関数を最適化する(ellとlは2つのバリアント)。
  • 曲線の端点を、経路全体でほぼ一定の訓練損失と検証誤差で結ぶことができることを示す。

実験結果

リサーチクエスチョン

  • RQ1現代のDNNの最適解は、重み空間のモードを結ぶ低損失曲線上に存在するのか。
  • RQ2アーキテクチャやデータセットを超えて、独立に訓練されたネットワーク間で高精度な経路を信頼性高く発見できるか。
  • RQ3幾何学的知見を活用してより良く、より高速なアンサンブル手法を構築できるか。
  • RQ4提案されたアンサンブル手法は、標準ベンチマークでSnapshot Ensemblesと比較してどうか。

主な発見

DNN(予算)方法1B2B3B1B2B3B
VGG-16 (200)Ind27.4±0.125.2824.456.75±0.165.895.90
VGG-16 (200)SSE26.4±0.125.1624.696.57±0.126.195.95
VGG-16 (200)FGE25.7±0.124.1123.546.48±0.095.825.66
ResNet-164 (150)Ind21.5±0.419.0418.594.72±0.14.103.77
ResNet-164 (150)SSE20.9±0.219.2818.914.66±0.024.374.30
ResNet-164 (150)FGE20.2±0.118.6718.214.54±0.054.213.98
WRN-28-10 (200)Ind19.2±0.217.4817.013.82±0.13.403.31
WRN-28-10 (200)SSE17.9±0.217.316.973.73±0.043.543.55
WRN-28-10 (200)FGE17.7±0.216.9516.883.65±0.13.383.52
  • 最適解をほぼ一定の精度で結ぶ単純な曲線(例:1つの曲がりを持つポリゴン連鎖やベジエ曲線)が存在する。
  • CIFAR-10/100 および複数のアーキテクチャにおいて、モード間で検出された経路に沿って訓練損失とテスト誤差は低いままである。
  • 連結性曲線上の点は、アンサンブルに適した意味のある異なる表現をもたらす。
  • Fast Geometric Ensembling (FGE) は、同等の予算下で CIFAR-10, CIFAR-100, ImageNet において Snapshot Ensembles および独立訓練を上回る。
  • ImageNet の ResNet-50 で、5 エポックのみで top-1 エラーを 0.56% 改善。
  • FGE は、比較的小さなウェイト空間のステップ幅で強力なアンサンブル性能を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。