Skip to main content
QUICK REVIEW

[論文レビュー] On the Universality of the Double Descent Peak in Ridgeless Regression

David Holzmüller|arXiv (Cornell University)|Oct 5, 2020
Sparse and Compressive Sensing Techniques被引用数 2
ひとこと要約

この論文は、ラベルノイズ下でのリッジレス線形回帰における期待一般化誤差の非漸近的・分布に依存しない下界を確立し、過パラメータ化された領域におけるダブルデセントピークが、ランダムな深層ニューラルネットワーク、ランダムフォーリエ特徴、多項式カーネルを含む広範な特徴マップのクラスにわたって普遍的であることを証明している。これは、過パラメータ化領域におけるラベルノイズへの固有の感受性に起因する。

ABSTRACT

We prove a non-asymptotic distribution-independent lower bound for the expected mean squared generalization error caused by label noise in ridgeless linear regression. Our lower bound generalizes a similar known result to the overparameterized (interpolating) regime. In contrast to most previous works, our analysis applies to a broad class of input distributions with almost surely full-rank feature matrices, which allows us to cover various types of deterministic or random feature maps. Our lower bound is asymptotically sharp and implies that in the presence of label noise, ridgeless linear regression does not perform well around the interpolation threshold for any of these feature maps. We analyze the imposed assumptions in detail and provide a theory for analytic (random) feature maps. Using this theory, we can show that our assumptions are satisfied for input distributions with a (Lebesgue) density and feature maps given by random deep neural networks with analytic activation functions like sigmoid, tanh, softplus or GELU. As further examples, we show that feature maps from random Fourier features and polynomial kernels also satisfy our assumptions. We complement our theory with further experimental and analytic results.

研究の動機と目的

  • ラベルノイズ下でのリッジレス線形回帰における期待一般化誤差の非漸近的・分布に依存しない下界を確立すること。
  • 従来のアンダーパラメータ化領域での境界を、訓練データを完全に適合する(補間する)過パラメータ化(インターポレーション)領域に拡張すること。
  • この下界が成立する条件を分析すること、特に、ほとんど確実にフルランクの設計行列を持つ特徴マップに焦点を当てること。
  • この下界が漸近的に鋭く、深層ニューラルネットワークやランダム特徴マップからの非i.i.d.な特徴分布を含む現実的な分布に対しても適用可能であることを示すこと。
  • ダブルデセントピークが特定のモデル仮定に起因するアーチファクトではなく、過パラメータ化モデルにおけるラベルノイズ感受性によって駆動される普遍的現象であることを示すこと。

提案手法

  • 過パラメータ化領域におけるリッジレス線形回帰の期待超過リスク(一般化誤差)に対する非漸近的下界を導出する。この導出は、Mourtada (2022) が提案したミニマックスフレームワークを過パラメータ化ケースに適応したものである。
  • 特徴行列がほとんど確実にフルランクであることを保証する条件(FRK)を導入し、これにより訓練データを補間する解の存在が保証される。
  • 解析を、解析的活性化関数(例:シグモイド、tanh、GELU)を備えたランダムな深層ニューラルネットワークから得られる特徴マップに適用し、入力がLebesgue分布に従う場合にFRK条件が満たされることを示す。
  • ランダムフォーリエ特徴と多項式カーネルに対しても分析を拡張し、これらが下界が適用可能となるために必要な仮定を満たしていることを証明する。
  • 高次元における逆グラム行列 (W W^T)^{-1} の挙動を分析するために、確率的行列理論と集中不等式の理論的ツールを用いる。
  • 導出された下界を有限幅のニューラルトランジットカーネルとランダムニューラルネットワーク特徴に関する経験的・理論的結果と比較し、n, p → ∞ の極限において漸近的に鋭いかどうかを確認する。

実験結果

リサーチクエスチョン

  • RQ1リッジレス回帰におけるダブルデセントピークは、多様な特徴マップにわたって普遍的現象であるのか、それとも特定のモデル仮定に限定されるのか?
  • RQ2過パラメータ化領域におけるリッジレス線形回帰に対して、分布に依存しない一般化誤差の下界を確立できるか?
  • RQ3特徴工学は、リッジレスモデルのラベルノイズ感受性をどの程度軽減できるか?
  • RQ4解析的活性化関数を備えたランダムな深層ニューラルネットワークは、下界が成立するための条件を満たすか?
  • RQ5本研究で提示された下界は、既存の境界と比較して、タイトさと現実のデータ分布への適用可能性の面で優れているか?

主な発見

  • この論文は、p ≥ n である過パラメータ化領域において有効な、非漸近的・分布に依存しない期待一般化誤差の下界を確立した。
  • この下界は漸近的に鋭く、n, p → ∞ の極限において実際の誤差挙動と一致することから、タイトさが確認された。
  • Lebesgue密度を持つ入力分布と、解析的活性化関数(例:シグモイド、tanh、GELU)を備えたランダムな深層ニューラルネットワークからの特徴マップに対して、FRK条件が満たされることを示した。
  • この下界は、ラベルノイズが存在する場合、特徴マップの設計にかかわらず、補間閾値(n ≈ p)付近で顕著な一般化誤差ピークを回避できないことを示唆している。
  • Muthukumarら (2020) の先行研究よりも強い結果であり、明示的で、サブガウスノルムに依存せず、大きさの点でも上回っている。これは、標準的な仮定のもとでは特徴工学によってダブルデセントピークを排除できないことを示している。
  • 分析から、一般化誤差(ENoise < εσ²)を低く抑える唯一の方法は、強くアンダーパラメータ化(p < εn)または強くオーバーパラメータ化(p > n/ε)であることが明らかになった。これは、モデル設計における根本的なトレードオフを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。