QUICK REVIEW

[論文レビュー] Optimal Regularization Can Mitigate Double Descent

Preetum Nakkiran, Prayaag Venkat|arXiv (Cornell University)|Mar 4, 2020

Sparse and Compressive Sensing Techniques参考文献 44被引用数 48

ひとこと要約

論文は、最適に調整されたL2正則化（リッジ）が、特定の線形設定においてデータ量やモデルサイズの増加とともにモノトーンなテストパフォーマンスを生み出す可能性を示し、経験的にこれをニューラルネットワークのようなより広いモデルへ拡張する。

ABSTRACT

Recent empirical and theoretical studies have shown that many learning algorithms -- from linear regression to neural networks -- can have test performance that is non-monotonic in quantities such the sample size and model size. This striking phenomenon, often referred to as "double descent", has raised questions of if we need to re-think our current understanding of generalization. In this work, we study whether the double-descent phenomenon can be avoided by using optimal regularization. Theoretically, we prove that for certain linear regression models with isotropic data distribution, optimally-tuned $\ell_2$ regularization achieves monotonic test performance as we grow either the sample size or the model size. We also demonstrate empirically that optimally-tuned $\ell_2$ regularization can mitigate double descent for more general models, including neural networks. Our results suggest that it may also be informative to study the test risk scalings of various algorithms in the context of appropriately tuned regularization.

研究の動機と目的

データとモデルの成長を横断するダブルディセント現象の動機づけと定義。
高次元の線形回帰で最適なL2正則化がモノトーンなテストリスクを生み出せるかを調査。
射影とランダム特徴設定の下でモデル単位のモノトニシティへの分析を拡張。
ニューラルネットワークとCNNで最適な正則化によるモノトニシティを示す経験的証拠を提供。
限界、反例、および一般共分散構造への拡張の可能性を議論。

提案手法

等方性ガウス共分散を持つ高次元線形モデルと十分に特定された線形真実を用いてリッジ回帰を分析する。
等方設定でサンプルサイズnに依存しない最適リッジパラメータλ_optを導出し、示す（補題2）。
サンプルごとの単調性を証明：最適に調整されたリッジを用いると、nを増やしても期待テストリスクが増えない（定理1）。
固定モデルサイズdへのランダム射影設定で、最適リッジ回帰を用いたモデルサイズ成長のモノトニシティを示す（定理3）。
特異値の挟み込みとリスクの部分評価に基づく非漸近的議論（補題1と補題2）。
非等方共分散、ランダムReLU特徴、CNNへ拡張して経験的モノトニシティを示す。
モノトニシティが成り立たない反例を議論し、非等方設定での適応的正則化を提案（第6節）。

実験結果

リサーチクエスチョン

RQ1最適なL2正則化は線形回帰のダブルディセントを除去または緩和できるか？
RQ2正則化強度を最適に調整したとき、データ量やモデルサイズの増加に対してテスト性能は単調か？
RQ3下位次元サブスペースへの射影におけるモデルサイズの成長で、最適正則化はモデル単位のダブルディセントに拡張されるか？
RQ4これらの単調性は等方ガウスデータを超えるより一般的な共分散構造へどう翻訳されるか？
RQ5ニューラルネットワークとCNNで適応的またはデータ依存の正則化を使用する際の実証的含意は？

主な発見

最適に調整されたリッジ回帰は、等方線形回帰におけるサンプル数の増加とともにテスト性能を単調に保つ（サンプルごとの単調性）。
最適リッジパラメータλ_optは等方設定ではnに依存せず、期待リスクは単調性の議論を促進する形で表現できる。
モデルサイズ成長に対してd次元のランダム射影を用いた場合、最適に調整されたリッジ回帰はモノトニックなテスト性能を達成する（モデルサイズごとの単調性）。
実証的に、最適なL2正則化は非等方回帰、ランダムReLU特徴、CNNでダブルディセントを緩和する。
最適に正則化されたリッジ回帰が特定の非ガウスまたは異分散設定でモノトニックでない反例が存在し、適応的正則化アプローチを動機づける。
本研究は適切に調整された正則化の下でアルゴリズムのテストリスクスケーリングを研究することが一般化の理解の道になると示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。