QUICK REVIEW

[論文レビュー] On the Optimization of Deep Networks: Implicit Acceleration by Overparameterization

Sanjeev Arora, Nadav Cohen|arXiv (Cornell University)|Feb 19, 2018

Stochastic Gradient Optimization Techniques参考文献 34被引用数 135

ひとこと要約

本論文は、過パラメータ化された線形ネットワークにおける深さの増加が、勾配降下法に対して事前条件付け効果を誘発することによって暗黙的に最適化を加速し得ること、そしてこの加速は任意の固定正則化器では再現できないことを示している。

ABSTRACT

Conventional wisdom in deep learning states that increasing depth improves expressiveness but complicates optimization. This paper suggests that, sometimes, increasing depth can speed up optimization. The effect of depth on optimization is decoupled from expressiveness by focusing on settings where additional layers amount to overparameterization - linear neural networks, a well-studied model. Theoretical analysis, as well as experiments, show that here depth acts as a preconditioner which may accelerate convergence. Even on simple convex problems such as linear regression with $\ell_p$ loss, $p>2$, gradient descent can benefit from transitioning to a non-convex overparameterized objective, more than it would from some common acceleration schemes. We also prove that it is mathematically impossible to obtain the acceleration effect of overparametrization via gradients of any regularizer.

研究の動機と目的

深いネットワークにおける深さと過パラメータ化が最適化に与える影響を調査する。
深さが行列の積としてパラメータを変化させる線形ネットワークを分析し、表現力と最適化を分離する。
エンドツーエンドの最適化を特徴付ける連続時間勾配ダイナミクスの枠組みを構築する。
加速は固定された正則化器によって達成できないことを示す。

提案手法

連続時間微分方程式を用いて深層線形ネットワーク上の勾配降下ダイナミクスを分析する。
エンドツーエンドの重み W_e を単一層の目的関数 L^1 に関連づけ、深さ依存の事前条件付けを導出する。
適応学習率とモーメントに類似した W_e の明示的な更新規則を導出する（定理1、式8-10）。
適応スケーリングと射影を含む扱いやすい形を与える単一出力ケース（主張2）を提供する。
加速効果は任意の固定正則化器の勾配から得られないことを証明する（定理2）。
理論的発見を実証的評価（セクション8）で補強する。

実験結果

リサーチクエスチョン

RQ1過パラメータ化による深さの増加は、線形ネットワークの最適化を加速するか。
RQ2浅いものと比較して深い線形ネットワークを最適化する際の勾配降下ダイナミクスはどう変化するか。
RQ3観測された加速は標準的な正則化手法で再現できるか。
RQ4深さ N に依存する深層ネットワークのエンドツーエンドの更新の性質は何か。

主な発見

深さによる過パラメータ化は勾配降下法の事前条件付けを誘発し、すでに最適化が進んだ方向に沿った動きを促進する。
エンドツーエンドの重みダイナミクス W_e は、深さ依存の更新に従い、単一層の目的関数 L^1(W_e) に対する事前条件付けされた勾配ステップに似ている。
事前条件付けは W_e の特異値に依存し、深さ N が増えるにつれて特定の方向への有効ステップを増大させる。
単一出力ケースでは、更新はノルムに基づく乗算学習率因子と勾配射影項を含み、適応的な加速を可能にする。
加速効果は固定正則化器では再現できず、正則化された目的関数の勾配として表現できない（定理2）。
経験的結果は、過パラメータ化が一部の設定で標準的な加速手法（例：AdaGrad、AdaDelta）を上回る可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。