QUICK REVIEW

[論文レビュー] Generalization error in high-dimensional perceptrons: Approaching Bayes error with convex optimization

Benjamin Aubin, Florent Krząkała|arXiv (Cornell University)|Jun 11, 2020

Neural Networks and Applications被引用数 27

ひとこと要約

本稿は、高次元線形分類における$\ell_2$正則化付き凸分類器の一般化誤差の正確な公式を導出しており、サンプル対特徴量比$\alpha = n/d \to \infty$のとき、ロジスティック回帰とハムイン回帰がベイズ最適性能にほぼ達していることを示している。さらに、統計物理学と状態遷移に基づく変分的手法を用いて、ベイズ最適誤差率を明示的に達成する最適で非凸な損失関数と正則化項を設計している。

ABSTRACT

We consider a commonly studied supervised classification of a synthetic dataset whose labels are generated by feeding a one-layer neural network with random iid inputs. We study the generalization performances of standard classifiers in the high-dimensional regime where $α=n/d$ is kept finite in the limit of a high dimension $d$ and number of samples $n$. Our contribution is three-fold: First, we prove a formula for the generalization error achieved by $\ell_2$ regularized classifiers that minimize a convex loss. This formula was first obtained by the heuristic replica method of statistical physics. Secondly, focussing on commonly used loss functions and optimizing the $\ell_2$ regularization strength, we observe that while ridge regression performance is poor, logistic and hinge regression are surprisingly able to approach the Bayes-optimal generalization error extremely closely. As $α o \infty$ they lead to Bayes-optimal rates, a fact that does not follow from predictions of margin-based generalization error bounds. Third, we design an optimal loss and regularizer that provably leads to Bayes-optimal generalization error.

研究の動機と目的

高次元極限（$n/d = \alpha$ は有限、$d \to \infty$）における$\ell_2$正則化付き凸分類器の一般化誤差に対する厳密な公式を導出すること。
標準的な凸損失関数（ロジスティック、ハムイン、二乗）の$\ell_2$正則化下での性能を評価し、ベイズ最適誤差率と比較すること。
この高次元パーセプトロンモデルにおいて、ベイズ最適一般化誤差を明示的に達成する最適な損失関数と正則化項を設計すること。
マージンに基づく一般化境界が、この設定におけるロジスティック回帰とハムイン回帰の近似最適性能を予測できないことを示すこと。

提案手法

統計物理学のレプリカ法を用いて、高次元極限における一般化誤差の閉形式表現を導出する。
近似メッセージパッシング（GAMP）アルゴリズムの状態遷移を適用し、推定子と事後分散の漸近的挙動を特徴付ける。
ミヨウヤダ・イダリティの正則化と事後精度の逆数を含む変分定式化を用いて、最適な損失関数と正則化項を導出する。
高次元における測度の集中性に依拠して、分散$q_b$と$\hat{q}_b$の決定的固定点方程式の使用を正当化する。
ミヨウヤダ・イダリティの恒等式を用いて正則化項を逆転させ、事後パーティション関数から最適正則化項$r^{\rm opt}$を構築する。
有限次元の例（$d = 10^3$）に対してL-BFGS-B最適化を用いて理論的予測を数値的に検証し、理論とほぼ完全に一致することを示した。

実験結果

リサーチクエスチョン

RQ1高次元線形分類における$\ell_2$正則化付き凸分類器の一般化誤差に対して、厳密な公式を導出可能か？
RQ2ロジスティック回帰とハムイン回帰は、標準的なマージンに基づく一般化境界を満たさないにもかかわらず、なぜベイズ最適性能に近い性能を達成できるのか？
RQ3この設定において、ベイズ最適一般化誤差を明示的に達成する最適な損失関数と正則化項は何か？
RQ4高次元極限において、標準的な凸損失関数の性能は$\alpha \to \infty$のときベイズ最適率とどのように比較されるか？

主な発見

$\ell_2$正則化付き凸分類器の一般化誤差は、レプリカ法によって導出された公式と状態遷移による確認により、正確に特徴付けられている。
ロジスティック回帰とハムイン回帰は、マージンに基づく境界に制約されても、$\alpha \to \infty$のときベイズ最適誤差率に限りなく近づく性能を達成する。
リッジ回帰は性能が著しく低いことから、近似最適性能を達成するには損失関数の選択が極めて重要であることが示された。
事後パーティション関数とミヨウヤダ・イダリティの逆転を用いて、明示的に最適損失関数$l^{\rm opt}$と最適正則化項$r^{\rm opt}$を構築でき、これらはベイズ最適性を明示的に達成することが保証されている。
$d = 10^3$での数値シミュレーションにより、最適損失関数と正則化項を用いたERMが、誤差バーがほとんどない範囲でベイズ最適誤差率と一致することが確認された。
最適損失関数$l^{\rm opt}$は非凸であるが、準凸に見えることから、この設定では非凸性が最適性能への到達を妨げないことが示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。