Skip to main content
QUICK REVIEW

[論文レビュー] Post-selection inference for penalized M-estimators via score thinning

Ronan J. Perry, Snigdha Panigrahi|arXiv (Cornell University)|Jan 20, 2026
Statistical Methods and Inference被引用数 0
ひとこと要約

論文は、スコア変数を希釈化してノイズを加えることにより、ペナルティ付きM推定後の有効な後選択推定を実現する、一般的で単純なアプローチを提案し、標準推定を特注手法なしで行えるようにしている。

ABSTRACT

We consider inference for M-estimators after model selection using a sparsity-inducing penalty. While existing methods for this task require bespoke inference procedures, we propose a simpler approach, which relies on two insights: (i) adding and subtracting carefully-constructed noise to a Gaussian random variable with unknown mean and known variance leads to two \emph{independent} Gaussian random variables; and (ii) both the selection event resulting from penalized M-estimation, and the event that a standard (non-selective) confidence interval for an M-estimator covers its target, can be characterized in terms of an approximately normal ``score variable". We combine these insights to show that -- when the noise is chosen carefully -- there is asymptotic independence between the model selected using a noisy penalized M-estimator, and the event that a standard (non-selective) confidence interval on noisy data covers the selected parameter. Therefore, selecting a model via penalized M-estimation (e.g. \verb=glmnet= in \verb=R=) on noisy data, and then conducting \emph{standard} inference on the selected model (e.g. \verb=glm= in \verb=R=) using noisy data, yields valid inference: \emph{no bespoke methods are required}. Our results require independence of the observations, but only weak distributional requirements. We apply the proposed approach to conduct inference on the association between sex and smoking in a social network.

研究の動機と目的

  • 疎性を誘導するペナルティを用いたデータ駆動型モデル選択の後の有効な推定を動機づける。
  • 選択と推定が概ね正規分布のスコア変数に依存する枠組みを開発する。
  • ノイズの追加とスコアの希薄化により、選択イベントと推定イベントが漸近的に独立になることを示す。
  • L1ペナルティを持つ一般化線形モデルに適用可能な実用的手法を提供する。
  • シミュレーションと社会ネットワークデータへの適用を通じて適用性を示す。

提案手法

  • M推定のためのスコア変数とその近似正規性を導入する。
  • 希薄化されたノイズを用いてスコアを二つのほぼ独立な成分に分解する:Z_n^(1) と Z_n^(2)。
  • モデル選択イベントを希薄化成分 Z_n^(1) で、カバレッジイベントを Z_n^(2) で特徴づける。
  • 乱数化されたペナルティ付きM推定問題を解くことにより、またはデータをノイズ化することにより、条件付きカバレッジを有効にする後選択推定アプローチを提案する。
  • Berry-Esseen型境界と標準的なM推定の正則性を含む穏やかな条件の下で理論的保証を確立する。
  • L1ペナルティを持つGLMへ本枠組みを適用し、実装上の考慮事項を議論する。
Figure 1: Outcomes are generated from a linear model with i.i.d. Gaussian noise whose variance is unknown. Inference is conducted on the linear model selected by $L_{1}$ -penalized ordinary least squares. Results are aggregated across $1000$ repetitions. Since the classical approach fails to attain
Figure 1: Outcomes are generated from a linear model with i.i.d. Gaussian noise whose variance is unknown. Inference is conducted on the linear model selected by $L_{1}$ -penalized ordinary least squares. Results are aggregated across $1000$ repetitions. Since the classical approach fails to attain

実験結果

リサーチクエスチョン

  • RQ1ペナルティ付きM推定後の後選択推定は、選択過程にノイズとスコア希薄化を加えることで標準的な推定ツールで達成できるか。
  • RQ2希薄化されたスコア成分を介して選択イベントと信頼区間のカバレッジイベントが漸近的に独立になる条件は何か。
  • RQ3GLMにおけるL1ペナルティを持つM推定量で、ペナルティや応答にノイズを加えることは条件付きカバレッジを有効にするか。
  • RQ4特注の選択的手続きを用意せずとも、canonical GLMに対してこの推定を実践的に実装するにはどうすればよいか。
  • RQ5提案手法のシミュレーションと実データへの適用での挙動はどうなるか。

主な発見

  • 希薄化されたスコア変数を二つの独立したガウス成分に分解でき、それぞれが選択と推定を支配する。
  • ノイズ付きペナルティ付きM推定を用いると、選択イベントは一方の希薄化成分に依存し、標準的なCIカバレッジはもう一方に依存するため、後選択推定が有効になる。
  • ペナルティまたは応答のいずれかにノイズを加えると、標準的推定ツールを用いて選択モデルの漸近的に有効な推定が得られる。
  • このアプローチはL1ペナルティを持つGLMにも拡張可能で、特注的手続きを必要とせず実用的な後選択推定を提供する。
  • 著者はシミュレーションと社会ネットワークデータセットへの適用を通じて方法を示している。
Figure 2: We simulate outcomes from a logistic regression model. Inference is conducted on the model selected using $L_{1}$ -penalized logistic regression. Confidence intervals are computed for all coefficients in the selected model. Results are aggregated across $1000$ repetitions. Since the classi
Figure 2: We simulate outcomes from a logistic regression model. Inference is conducted on the model selected using $L_{1}$ -penalized logistic regression. Confidence intervals are computed for all coefficients in the selected model. Results are aggregated across $1000$ repetitions. Since the classi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。