QUICK REVIEW
[論文レビュー] Characterizing Implicit Bias in Terms of Optimization Geometry
Suriya Gunasekar, Jason Lee|arXiv (Cornell University)|Feb 22, 2018
Sparse and Compressive Sensing Techniques参考文献 31被引用数 47
ひとこと要約
この論文は、過少決定線形モデルにおけるさまざまな最適化アルゴリズムがグローバルミニマムの選択に与えるバイアスを分析し、暗黙のバイアスを最適化幾何学(ポテンシャル、ノルム)と結びつけ、固有の有限根を持つロスと厳密単調ロスを横断して検討する。
ABSTRACT
We study the implicit bias of generic optimization methods, such as mirror descent, natural gradient descent, and steepest descent with respect to different potentials and norms, when optimizing underdetermined linear regression or separable linear classification problems. We explore the question of whether the specific global minimum (among the many possible global minima) reached by an algorithm can be characterized in terms of the potential or norm of the optimization geometry, and independently of hyperparameter choices such as step-size and momentum.
研究の動機と目的
- 一般的な最適化法が多数のグローバルミニマムの間で選択する際の暗黙のバイアスを、最適化幾何学と初期化によって特徴づけられるかを決定する。
- 有限根を持つロスと厳密単調ロスが、さまざまなアルゴリズムの極限挙動にどのように影響するかを区別する。
- 異なる幾何学の下で、ミラー降下、自然勾配降下、最急降下の正確なバイアスの特徴を提供する。
提案手法
- 有限根を持つロス(例:二乗誤差)や厳密単調ロス(例:ロジスティック、指数)を用いた経験的リスク最小化の下で線形モデルを分析する。
- 異なるアルゴリズムと幾何学の下で、最適化軌道の極限点または極限方向(w_infty または w_bar_infty)を特徴づける。
- ミラー降下(制約付き変種を含む)について、極限点を可 行集合内の D_psi の最小化点として示す定理を導出する。
- psi が二次関数の場合、自然勾配降下の無限小ステップはミラー降下と一致するが、有限ステップではバイアスが異なることがあり、バイアスに影響する。
- 厳密単調ロスでは、勾配降下と最急降下は、初期化やしばしばステップサイズに依存せず、選択したノルムに対して最大マージン解へ方向収束する。
- AdaGrad のバイアスは、初期化や初期 G_t に依存することを示す。
実験結果
リサーチクエスチョン
- RQ1さまざまな最適化アルゴリズムの暗黙のバイアスは、ステップサイズ、モーメント、確率性に依存せず、最適化幾何学(ポテンシャルまたはノルム)のみで特徴づけられると言えるか?
- RQ2有限根を持つロスと厳密単調ロスは、異なる幾何学の下での軌道の極限挙動(点か方向)にどのように影響するか?
- RQ3鏡雪崩(ミラー降下)、自然勾配降下、最急降下は、異なるポテンシャル/ノルムに対して、どの極限点または方向を持つか?
- RQ4無限小ステップ分析は非ユークリッド幾何のバイアスの特徴を再現するか、そして有限ステップはこれらのバイアスをどう変えるか?
- RQ5AdaGrad のような適応法は、ロスのタイプを跨いで暗黙のバイアスにどのように影響するか?
主な発見
- 有限根を持つロスでは、ミラー降下は、初期化に対する Bregman 発散 D_psi を最小化するグローバルミニマイザへ、また psi の最小化点から初期化している場合には psi-minimizer を最小化する点へ収束する。
- ミラー降下のデュアル空間モーメントはデータ・マニフォールド制約を保持し、適切条件下で psi-minimizer へのバイアスを保つ; primal モーメントはリミット点をこのバイアスから外す可能性がある。
- 無限小ステップの自然勾配降下はミラー降下と同じ極限を共有するが、有限ステップではバイアスは一般に異なり、ステップサイズに依存することがある。
- 一般のノルムを用いた最急降下は、有限ステップ・無限小ステップのいずれでも初期化に依存しない単純なバイアスを一般的には許容しない、ユークリッドの場合とは異なる。
- 厳密単調ロス(例:指数関数/ロジスティック)の場合、勾配降下と最急降下は、初期化と小さなステップサイズの条件の下で、選択したノルムに対して最大マージン分離器へ向かう方向で収束する。
- AdaGrad の暗黙のバイアスは、初期化や初期 G_t に依存することを示す。
- 行列分解パラメータ化 (W = UV^T) は追加の非凸性を導入し、異なる最適化スキーム下の暗黙のバイアスの広範な議論と結びつく。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。