QUICK REVIEW

[論文レビュー] Beyond Linearization: On Quadratic and Higher-Order Approximation of Wide Neural Networks

Yu Bai, Jason D. Lee|arXiv (Cornell University)|Oct 3, 2019

Stochastic Gradient Optimization Techniques参考文献 55被引用数 44

ひとこと要約

この論文は、過度にパラメータ化された二層ニューラルネットワークと二次・高次の Taylor 項を結合するランダム化トレーニングフレームワークを提案し、NTK を超える最適化景観と一般化を実現可能にする。ランダム化の下で有利な景観、一般化、およびサンプル複雑性を示す理論と境界を提供する。

ABSTRACT

Recent theoretical work has established connections between over-parametrized neural networks and linearized models governed by he Neural Tangent Kernels (NTKs). NTK theory leads to concrete convergence and generalization results, yet the empirical performance of neural networks are observed to exceed their linearized models, suggesting insufficiency of this theory. Towards closing this gap, we investigate the training of over-parametrized neural networks that are beyond the NTK regime yet still governed by the Taylor expansion of the network. We bring forward the idea of \\emph{randomizing} the neural networks, which allows them to escape their NTK and couple with quadratic models. We show that the optimization landscape of randomized two-layer networks are nice and amenable to escaping-saddle algorithms. We prove concrete generalization and expressivity results on these randomized networks, which lead to sample complexity bounds (of learning certain simple functions) that match the NTK and can in addition be better by a dimension factor when mild distributional assumptions are present. We demonstrate that our randomization technique can be generalized systematically beyond the quadratic case, by using it to find networks that are coupled with higher-order terms in their Taylor series.

研究の動機と目的

NTK 理論と経験的ニューラルネットワーク性能のギャップを動機づけ、解決する。
線形の NTK 構 regime から高次の Taylor 項へ学習をシフトさせるランダム化手法を提案する。
ランダム化されたネットワークの最適化景観保証を二次モデルを通じて確立する。
ランダム化されたネットワークの一般化と表現力の境界を導出し、NTK と比較したサンプル複雑性を分析する。
このアプローチが高次（k 次） Taylor 項へ拡張可能であることを示し、単純な関数クラスの学習への示唆を論じる。

提案手法

初期値付近で f_W を Taylor 展開し、NTK を越える高次項を同定する。
線形化された項と高次項をデカップリングするためにランダム符号対角化 W Σ を導入し、得られた結合二次モデル f^Q_W を解析する。
ランダム化リスク L(W) = E_Σ[L̃(WΣ)] を定式化し、重みの成長を抑えるために l2,4 ノルムで正則化する。
ランダム化した損失 L が二次約数の停留点が最適な二次モデルと比較して失敗しない低い損失を与える良好な景観を持つことを証明する。
正则化損失 L_λ への景観移行を示し、大きな学習率と saddle 点回避手法を許す最適化保証を提供する。
Rademacher 複雑度と特徴写像作用素ノルムを介したランダム化された二次モデルの一般化境界を提供し、ポリynomial 型ターゲット関数を通じて表現力を分析する。

実験結果

リサーチクエスチョン

RQ1NTK を超えるトレーニングを、高次の Taylor 項を強調するランダム化戦略で実現できるか。
RQ2ランダム化は最適化ダイナミクスを線形 NTK ではなく二次（または高次）モデルと結合させ、得られる景観が有利になるか。
RQ3NTK と比較して、ランダム化された高次結合モデルでの学習の一般化と表現力への影響は何か。
RQ4ランダム化アプローチを高次（k 次）項へ拡張し、単純な関数クラスの学習におけるサンプル複雑性を NTK と同等またはそれ以上に達せるか。

主な発見

ランダム化により、 Taylor 展開のNTK から二次（または高次）の項が支配的な学習項へシフトする。
ランダム化リスク L は、任意の二次的停留点が最適な二次モデルと比較して訓練損失が大きくない景観を生み出し、効率的な最適化を可能にする。
ランダム化された二次モデルの一般化境界は有利な挙動を示し、特徴分布と幅に依存してNTKより改善する場合がある。
ポリノミアル系統の関数を学習する場合、ランダム化された二次モデルのサンプル複雑性はNTKと一致し、 mild な分布仮定の下では次元要因でより良くなる可能性がある。
このフレームワークは高次 Taylor 項へ拡張可能であり、高次 NTK の研究に向けた、表現力と一般化の有利さを示唆する道筋を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。