Skip to main content
QUICK REVIEW

[論文レビュー] Scaling and renormalization in high-dimensional regression

Alexander Atanasov, Jacob A. Zavatone-Veth|arXiv (Cornell University)|May 1, 2024
Bayesian Methods and Mixture Models被引用数 6
ひとこと要約

この論文は、フリー確率論のS-transform技術を用いて高次元リッジ回帰モデルの訓練誤差と汎化誤差を導出し、線形およびランダム特徴モデルにおけるスケーリング、ダブル descent、分散源の統一的正規化視点を提供する。

ABSTRACT

From benign overfitting in overparameterized models to rich power-law scalings in performance, simple ridge regression displays surprising behaviors sometimes thought to be limited to deep neural networks. This balance of phenomenological richness with analytical tractability makes ridge regression the model system of choice in high-dimensional machine learning. In this paper, we present a unifying perspective on recent results on ridge regression using the basic tools of random matrix theory and free probability, aimed at readers with backgrounds in physics and deep learning. We highlight the fact that statistical fluctuations in empirical covariance matrices can be absorbed into a renormalization of the ridge parameter. This `deterministic equivalence' allows us to obtain analytic formulas for the training and generalization errors in a few lines of algebra by leveraging the properties of the $S$-transform of free probability. From these precise asymptotics, we can easily identify sources of power-law scaling in model performance. In all models, the $S$-transform corresponds to the train-test generalization gap, and yields an analogue of the generalized-cross-validation estimator. Using these techniques, we derive fine-grained bias-variance decompositions for a very general class of random feature models with structured covariates. This allows us to discover a scaling regime for random feature models where the variance due to the features limits performance in the overparameterized setting. We also demonstrate how anisotropic weight structure in random feature models can limit performance and lead to nontrivial exponents for finite-width corrections in the overparameterized setting. Our results extend and provide a unifying perspective on earlier models of neural scaling laws.

研究の動機と目的

  • ランダムマトリクスと自由確率論のツール(S-transform)を導入し、高次元リッジ回帰を分析する。
  • 大規模N,P極限において線形・カーネル・ランダム特徴モデル全体の正確な訓練誤差と汎化誤差を導出する。
  • S-transformを介してノイズとリッジパラメータを結びつける正規化の視点を提供する。
  • 過剰適合設定におけるスケーリング・バイアス-分散分解・分散源を特徴づける。

提案手法

  • 経験共分散行列をランダム(Wishart/構造化Wishart)系としてモデリングし、解法函数とStieltjes変換を用いてスペクトル特性を研究する。
  • R-およびS-transformを用いて、ランダムデータと特徴量の平均に対する決定論的同等物を得る。
  • 図式自由確率を適用してサブordination関係を導き出し、乗法的ノイズを正規化されたリッジパラメータへ翻訳する。
  • 線形およびカーネルリッジ回帰の正確な訓練誤差と汎化誤差を導出し、バイアス-分散分解を含む。
  • 構造化共変量と特徴ノイズを持つランダム特徴モデルへ拡張し、新しいスケーリング関係とレジームを得る。

実験結果

リサーチクエスチョン

  • RQ1S-transformはリッジ回帰における共分散の乗法的ノイズの影響をどう符号化するのか?
  • RQ2高次元で線形およびカーネルリッジ回帰の正確な訓練誤差と汎化誤差はいくらか?
  • RQ3スケーリング法則とダブル/descent現象は、過剰適合/過少適合レジームにおける正規化効果からどう生じるのか?
  • RQ4構造化した共変量や特徴ノイズを持つランダム特徴モデルのバイアス-分散分解とスケーリングレジームは?
  • RQ5異方性の重み構造は過剰幅の補正や指数にどのような影響を与えるのか?

主な発見

  • S-transformはリッジパラメータを正規化する簡単な道筋を提供し、モデル間の訓練-テストギャップを導出する。
  • 訓練誤差と汎化誤差の正確な漸近结果は既知の結果を再現し、乗法的ノイズを通じた統一的視点を提供する。
  • 構造化した共変量を持つランダム特徴モデルの広いクラスに対する新規のバイアス-分散分解を得た。
  • 過剰幅設定で特徴由来の分散が性能を支配するスケーリングレジームを特定した。
  • 異方性の重み構造は有限幅の非自明な指数を生み、過剰幅レジームのスケーリングに影響を与える。
  • この枠組みはニューラルのスケーリング法則を統一し、ダブル-descentを正規化効果として説明する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。