Skip to main content
QUICK REVIEW

[論文レビュー] A Kronecker-factored approximate Fisher matrix for convolution layers

Roger Grosse, James Martens|arXiv (Cornell University)|Feb 3, 2016
Stochastic Gradient Optimization Techniques参考文献 40被引用数 31
ひとこと要約

この論文は、畳み込みニューラルネットワークにおけるフィッシャー情報行列の扱いやすい近似としてKronecker Factors for Convolution (KFC)を導入する。KFCは、バックプロパゲーションされた勾配の構造的確率的モデルを活用し、フィッシャー・ブロックを小さな行列のクロネッカー積に分解することで、再パラメータ化に対して不変であり、SGDと比較して10–20倍速い学習を実現する効率的な自然勾配更新を可能にする。

ABSTRACT

Second-order optimization methods such as natural gradient descent have the potential to speed up training of neural networks by correcting for the curvature of the loss function. Unfortunately, the exact natural gradient is impractical to compute for large models, and most approximations either require an expensive iterative procedure or make crude approximations to the curvature. We present Kronecker Factors for Convolution (KFC), a tractable approximation to the Fisher matrix for convolutional networks based on a structured probabilistic model for the distribution over backpropagated derivatives. Similarly to the recently proposed Kronecker-Factored Approximate Curvature (K-FAC), each block of the approximate Fisher matrix decomposes as the Kronecker product of small matrices, allowing for efficient inversion. KFC captures important curvature information while still yielding comparably efficient updates to stochastic gradient descent (SGD). We show that the updates are invariant to commonly used reparameterizations, such as centering of the activations. In our experiments, approximate natural gradient descent with KFC was able to train convolutional networks several times faster than carefully tuned SGD. Furthermore, it was able to train the networks in 10-20 times fewer iterations than SGD, suggesting its potential applicability in a distributed setting.

研究の動機と目的

  • 重み共有を伴う畳み込みニューラルネットワークに、計算コストが著しく高騰しない曲率情報を捉えるスケーラブルな2次最適化手法を開発すること。
  • 元々全結合層を想定して設計されたK-FACフレームワークを、畳み込み層の重み共有を扱えるように拡張すること。
  • 活性化関数のセンター化や正規化などの一般的な再パラメータ化に対して、近似が不変であることを保証すること。
  • 1回の更新における計算オーバーヘッドと通信コストを最小限に抑えることで、分散学習における効率的な実行を可能にすること。

提案手法

  • バックプロパゲーションされた勾配が空間的に相関がなく、活性化関数と独立していると仮定する構造的確率的モデルを提案する。
  • 空間的およびチャネルワイドの統計から導かれる小さな行列のクロネッカー積として、畳み込み層のフィッシャー情報行列をモデル化する。
  • 空間的均一性と勾配の相関なしという仮定の下でフィッシャー・ブロックの分解を導出し、因子の逆行列計算により効率的な逆行列計算を可能にする。
  • 得られたクロネッカー分解されたフィッシャー近似を用いて、1回の更新あたりSGDと同等の計算量で自然勾配更新を計算する。
  • 学習中に曲率近似を維持するために、活性化関数および勾配統計の経験的平均を用いる。
  • 完全なK-FACと同様に、適応的ステップサイズ、モーメンタム、ダミングを統合可能であり、収束性の向上に寄与する。

実験結果

リサーチクエスチョン

  • RQ1重み共有を伴う畳み込みネットワークに、曲率を考慮した最適化手法を効率的に適応できるか?
  • RQ2クロネッカー分解されたフィッシャー近似は、バッチ正規化や活性化関数のセンター化といった一般的な再パラメータ化に対して不変性を保っているか?
  • RQ3本手法は、訓練誤差およびテスト誤差の両面でSGDに比べて著しく高速な収束を達成できるか?
  • RQ4特にイテレーション回数と通信コストの観点から、分散環境下でのスケーリング性能はいかがなものか?

主な発見

  • CIFAR-10およびSVHNベンチマークにおいて、KFCはSGDと同等またはより良いテスト誤差に到達するまでに10–20倍少ないイテレーション回数を要した。
  • CIFAR-10では、KFC-preは300イテレーションで10%の訓練誤差を達成したのに対し、SGDは6,000イテレーションを要し、収束速度が20倍向上した。
  • 大規模ミニバッチで学習しても一般化性能が維持されたことから、分散学習と高い互換性があることが示された。
  • 共分散統計と因子の逆行列を毎ステップではなく定期的に更新しても、KFC-preは顕著な性能低下を示さず、同期化オーバーヘッドが低いことが示された。
  • バッチ正規化を用いても、KFC-preは訓練誤差およびテスト誤差の両方をSGDよりも速く最適化でき、正規化手法と相乗効果を発揮することが示された。
  • KFCを用いて計算された自然勾配更新は、活性化関数のセンター化などの再パラメータ化に対して不変であり、望ましい幾何的性質を保持していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。