Skip to main content
QUICK REVIEW

[論文レビュー] Benign overfitting in ridge regression

Alexander Tsigler, Peter L. Bartlett|arXiv (Cornell University)|Sep 29, 2020
Sparse and Compressive Sensing Techniques参考文献 16被引用数 84
ひとこと要約

本論文は、独立性仮定を排除することで良性過適合に関するこれまでの研究を一般化し、過パラメータ化の下でのリッジ回帰におけるバイアスと分散に対する鋭い非漸近的境界を提供し、負の正則化が最適となる条件を示している。

ABSTRACT

In many modern applications of deep learning the neural network has many more parameters than the data points used for its training. Motivated by those practices, a large body of recent theoretical research has been devoted to studying overparameterized models. One of the central phenomena in this regime is the ability of the model to interpolate noisy data, but still have test error lower than the amount of noise in that data. arXiv:1906.11300 characterized for which covariance structure of the data such a phenomenon can happen in linear regression if one considers the interpolating solution with minimum $\ell_2$-norm and the data has independent components: they gave a sharp bound on the variance term and showed that it can be small if and only if the data covariance has high effective rank in a subspace of small co-dimension. We strengthen and complete their results by eliminating the independence assumption and providing sharp bounds for the bias term. Thus, our results apply in a much more general setting than those of arXiv:1906.11300, e.g., kernel regression, and not only characterize how the noise is damped but also which part of the true signal is learned. Moreover, we extend the result to the setting of ridge regression, which allows us to explain another interesting phenomenon: we give general sufficient conditions under which the optimal regularization is negative.

研究の動機と目的

  • 過パラメータ設定で補間モデルがなぜ一般化できるのかを理解する動機付け。
  • 既存の結果をリッジ回帰と非独立のデータ成分に一般化する。
  • 固有方向分離を用いて鋭い非漸近的なバイアスと分散の界を提供する。
  • 境界の中心として鍵となる行列 A_k とその条件数を導入・分析する。
  • 負の正則化が最適となる条件を探る。

提案手法

  • p>nかつ平均0のサブガウシアン共分散を持つ過parameterized レジームでリッジ回帰を設定する。
  • 過剰リスクをバイアス B と分散 V の項に分解し、A、X、共分散スペクトルを用いて表現する。
  • 固有方向分離を導入して活用する:データを最初の k と tail k:\u2209 部分に分割し、A_k = X_{k:\u00a1 1∞} X_{k:\u0010∞}^{ op} + \u0011 I_n となる。
  • CondNum(k,δ,L) と NoncritReg(k,γ) の仮定の下で B と V の非漸近的界を提供し、k^* を有効なスイッチ点として用いる。
  • λ>0 のリッジ回帰へ解析を拡張し、負の正則化が最適となる条件を論じる。
  • 先行研究との関係を論じ、Section 5 と Section 6 を通じてサブガウシアン尾部の十分性を議論する。

実験結果

リサーチクエスチョン

  • RQ1データ共分散のスペクトル条件の下で、補間/過parameterized 推定量が低い一般化誤差を達成できる条件は何か?
  • RQ2独立性仮定なしで、リッジ回帰のバイアスと分散の項をどうやって境界づけできるか?
  • RQ3最初の k 個の固有方向の分離が良性過適合の達成に果たす役割は何か?
  • RQ4特定の尾部スペクトルに対して負の正則化が最適となりうるか、十分条件は何か?
  • RQ5共分散の尾部挙動がリッジ回帰の最適正則化にどう影響するか?

主な発見

  • バイアス項の界は高次元の tail 部分と低次元の head 部分への分解と一致し、 tail エネルギーが誤差に寄与する様子を示す。
  • 分散界は independence の代わりに A_k に対する CondNum を用いることで Bartlett らを一般化し、鋭い非漸近的結果を得る。
  • リッジ回帰では λ>0 への拡張があり、負の正則化が最適となる条件を与える。
  • 分析は、独立性ではなく A_k の条件数に依存する尾部のより広い条件の下で良性過適合が生じ得ることを示す。
  • 本論文は、固有値の尾部とリッジパラメータ λ を通じてバイアスと分散の両方を支配する中心的オブジェクト A_k を提供・分析する。
  • 特定の尾部とノイズエネルギー条件の下で負の正則化が過剰リスクを改善し得ることを(Section 8)で確立している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。