Skip to main content
QUICK REVIEW

[論文レビュー] Limitations of the Empirical Fisher Approximation for Natural Gradient Descent

Frederik Künstner, Lukas Balles|arXiv (Cornell University)|May 29, 2019
Stochastic Gradient Optimization Techniques被引用数 40
ひとこと要約

経験的Fisherは一般にFisherやHessianのような二階情報を捉えず、前条件付けのための使用は更新を歪める可能性がある;本論は真のFisherの使用を提唱し、EFベースの実践的手法の別の説明として分散適応を論じる。

ABSTRACT

Natural gradient descent, which preconditions a gradient descent update with the Fisher information matrix of the underlying statistical model, is a way to capture partial second-order information. Several highly visible works have advocated an approximation known as the empirical Fisher, drawing connections between approximate second-order methods and heuristics like Adam. We dispute this argument by showing that the empirical Fisher---unlike the Fisher---does not generally capture second-order information. We further argue that the conditions under which the empirical Fisher approaches the Fisher (and the Hessian) are unlikely to be met in practice, and that, even on simple optimization problems, the pathologies of the empirical Fisher can have undesirable effects.

研究の動機と目的

  • 経験的Fisher、Fisher、および generalized Gauss-Newton (GGN) 行列の関係を明確にする。
  • 経験的Fisherが二階情報を信頼性高く捉えられないことを示す。
  • 経験的FisherがFisherを近似する条件と、それらが実務でほとんど満たされない理由を説明する。
  • 単純な問題においても、EF preconditioningの病理学的挙動と有害な影響を示す。
  • GGNの定義の修正を提案し、EFベースの手法の代替説明として分散適応を論じる。

提案手法

  • 自然勾配降下法(NGD)と generalized Gauss-Newton (GGN) の定義を見直す。
  • Fisher(Eq. 2)と経験的Fisher(Eq. 3)を比較し、それらの解釈を議論する。
  • GGN構築における分割を分析し、有用な曲率情報を保証するための明確化(Definition 1)を提案する。
  • EFが勾配場を歪め、最適解から遠い場所でのスケーリングを示す反例を提供する。
  • EFが最小値近傍でFisherへ収束する条件を論じる(Prop. 2および関連議論)。
  • EFベースの手法の実践的な成功を説明する代替観点として分散適応の視点(Eq. 19)を導入する。

実験結果

リサーチクエスチョン

  • RQ1経験的Fisherは一貫してFisherおよびHessianを近似するのか?
  • RQ2EFが最適点近傍でFisherへ収束する条件はあるのか、あるとすればどれか?
  • RQ3経験的Fisherは勾配更新を歪めることがあり得るのか、単純な問題でそれがどのように現れるか?
  • RQ4EFの解釈を改善するようなGGN定義の修正案はあるか?
  • RQ5EFベースの手法の実践的な成功は、曲率ではなく分散適応で説明できるのか?

主な発見

  • 経験的Fisherは一般化Gauss-Newton行列の形式的定義に従うが、選択された分割が有用な二階情報を保持しないことがある。
  • 経験的FisherとFisherの関係は、現実的モデルと十分なデータという強くて実現しにくい仮定の下でのみ存在する。
  • 最適点から離れた場所での経験的Fisherによる前条件付けは、勾配方向と大きさを歪めうる、時に著しく歪ませる。
  • EFは勾配の大きさに反比例する更新へと導くことがあり、ステップサイズ調整を難しくする。
  • 分散適応は、曲率適応ではなくEFベースの手法の実践的な成功の別の説明を提供する。
  • 真のFisherはより安全で一般に望ましい曲率行列として提示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。