QUICK REVIEW

[論文レビュー] The Impact of Regularization on High-dimensional Logistic Regression

Fariborz Salehi, Ehsan Abbasi|arXiv (Cornell University)|Jun 10, 2019

Statistical Methods and Inference参考文献 34被引用数 27

ひとこと要約

本稿は、6つの非線形方程式の系を用いて、高次元設定下における正則化ロジスティック回帰（RLR）の正確な漸近的分析を提供し、平均二乗誤差やサポート回復確率などの性能指標の正確な計算を可能にする。このフレームワークは、従来の最尤推定に関する先行研究を一般化し、ℓ₁およびℓ₂²正則化の場合の明示的な表現を提供し、推定精度を向上させる最適な正則化パラメータを同定する。

ABSTRACT

Logistic regression is commonly used for modeling dichotomous outcomes. In the classical setting, where the number of observations is much larger than the number of parameters, properties of the maximum likelihood estimator in logistic regression are well understood. Recently, Sur and Candes have studied logistic regression in the high-dimensional regime, where the number of observations and parameters are comparable, and show, among other things, that the maximum likelihood estimator is biased. In the high-dimensional regime the underlying parameter vector is often structured (sparse, block-sparse, finite-alphabet, etc.) and so in this paper we study regularized logistic regression (RLR), where a convex regularizer that encourages the desired structure is added to the negative of the log-likelihood function. An advantage of RLR is that it allows parameter recovery even for instances where the (unconstrained) maximum likelihood estimate does not exist. We provide a precise analysis of the performance of RLR via the solution of a system of six nonlinear equations, through which any performance metric of interest (mean, mean-squared error, probability of support recovery, etc.) can be explicitly computed. Our results generalize those of Sur and Candes and we provide a detailed study for the cases of $\ell_2^2$-RLR and sparse ($\ell_1$-regularized) logistic regression. In both cases, we obtain explicit expressions for various performance metrics and can find the values of the regularizer parameter that optimizes the desired performance. The theory is validated by extensive numerical simulations across a range of parameter values and problem instances.

研究の動機と目的

標本数とパラメータ数が同程度またはそれ以上に近い高次元ロジスティック回帰において、最尤推定の限界を克服すること。
構造的パラメータベクトル（例：スパース、低ランク）を考慮する、正則化ロジスティック回帰（RLR）の厳密な理論的枠組みを構築すること。
一般の凸正則化における主要な性能指標（平均、平均二乗誤差、サポート回復確率など）を体系的に計算する手法を提供すること。
SurとCandes（2019）の未正則化MLEに関する結果を正則化ケースに拡張し、統一的な解析的手法を提供すること。

提案手法

本稿は、高次元漸近的設定下におけるRLRの漸近的性能を特徴付ける6つの未知数の非線形方程式の系を導出する。
この系は、高次元漸近統計と近似メッセージパッシング（AMP）理論の道具を用いて導出され、正則化項のプロキシマル作用素が利用される。
性能指標は、この系の解を用いて計算され、真のパラメータベクトルの分布および正則化子が誘導する構造に依存する。
ℓ₂²正則化の場合、プロキシマル作用素は閉形式で計算可能であり、系が3つの式に簡略化される。
ℓ₁正則化の場合、q関数とプロキシマル作用素の明示的表現を用いて、サポート回復確率を計算する。
このフレームワークにより、推定誤差を最小化するか、回復精度を最大化するように正則化パラメータを最適化することが可能となる。

実験結果

リサーチクエスチョン

RQ1n ≈ p の高次元的状況下で、正則化がロジスティック回帰推定量のバイアスおよび平均二乗誤差に与える影響は何か？
RQ2高次元的漸近的設定下において、正則化ロジスティック回帰の性能指標（例：サポート回復、平均二乗誤差）を正確に特徴づける解析的表現を導出可能か？
RQ3推定誤差を最小化するか、正しくサポートを回復する確率を最大化する最適な正則化パラメータの値は何か？
RQ4データのスパarsityにより最尤推定量が存在しない場合、RLRの性能は未正則化MLEと比べてどのように異なるか？
RQ5理論的枠組みは、ℓ₁およびℓ₂²を越える一般の凸正則化子へ拡張可能か？また、正則化子の構造が解に与える影響は何か？

主な発見

本稿は、正則化ロジスティック回帰の漸近的性能を正確に特徴付ける6つの非線形方程式の系を確立し、すべての局所リプシッツ連続性能指標の正確な計算を可能にする。
ℓ₂²正則化ロジスティック回帰の場合、この系は3つの式に簡略化され、平均二乗誤差を最小化するための最適正則化パラメータの明示的表現が導出される。
ℓ₁正則化ロジスティック回帰の場合、プロキシマル作用素から導出されるq関数を用いて、正しいサポート回復確率を明示的に計算可能である。
このフレームワークは、最尤推定量が存在しない領域においても、正則化によって一貫したパラメータ回復が可能であることを示している。
数値シミュレーションにより、広範なパラメータ値と問題例において理論的予測の正確性が検証され、漸近的解析の妥当性が裏付けられている。
SurとCandesの先行研究は、正則化が存在しない場合にこのフレームワークの特殊ケースとして回復され、結果の一般化が達成されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。