QUICK REVIEW

[論文レビュー] Selective inference for effect modification via the lasso

Qingyuan Zhao, Dylan S. Small|arXiv (Cornell University)|May 22, 2017

Statistical Methods and Inference参考文献 89被引用数 29

ひとこと要約

本稿では、データ駆動型モデル選択の後に有意な治療-共変量相互作用を同定するためにlassoを用いた、2段階の選択的推論手法を提案する。ヌイズパラメータを分離するためのロビンソン変換を適用し、それらの推定に機械学習を用いることで、選択された効果修正要因に関する漸近的に有効な推論が可能となり、単変量サブグループ解析に比べて偽発見率を低減しつつ、高次元設定下でも解釈可能性を維持する。

ABSTRACT

Effect modification occurs when the effect of the treatment on an outcome varies according to the level of other covariates and often has important implications in decision making. When there are tens or hundreds of covariates, it becomes necessary to use the observed data to select a simpler model for effect modification and then make valid statistical inference. We propose a two stage procedure to solve this problem. First, we use Robinson's transformation to decouple the nuisance parameters from the treatment effect of interest and use machine learning algorithms to estimate the nuisance parameters. Next, after plugging in the estimates of the nuisance parameters, we use the Lasso to choose a low-complexity model for effect modification. Compared to a full model consisting of all the covariates, the selected model is much more interpretable. Compared to the univariate subgroup analyses, the selected model greatly reduces the number of false discoveries. We show that the conditional selective inference for the selected model is asymptotically valid given the rate assumptions in classical semiparametric regression. Extensive simulation studies are conducted to verify the asymptotic results and an epidemiological application is used to demonstrate the method.

研究の動機と目的

数百の共変量が存在する状況において、単変量サブグループ解析の高い偽発見率を回避しつつ、意味のある効果修正要因を同定する課題に対処すること。
lassoを用いて効果修正のための低次元モデルを選択した後でも、有効な統計的推論を可能にする手法を開発すること。
推定されたヌイズパラメータを伴う高次元的・半パラメトリック回帰設定下で、選択的推論の漸近的妥当性を保証すること。
高次元共変量が存在する状況において、モデルの複雑さを低減しながらも、解釈可能性と統計的信頼性を維持すること。

提案手法

治療効果とヌイズパラメータを分離するためのロビンソン変換を適用し、半パラメトリック枠組み内で条件付き平均治療効果（CATE）の推定を可能にする。
機械学習アルゴリズム（例：ランダムフォレスト、lasso）を用いて、非パラメトリックにヌイズ関数 μy(x) と μt(x) を推定する。
推定されたヌイズ関数を変換済みモデルに組み込み、lassoを用いて相互作用項からスパースな効果修正要因の集合を選択する。
テイラーとチブシラニ（2015）の枠組みに従い、lassoにおける正確なピボットを活用して、選択されたモデルの条件付きで選択的推論を実施する。
剰余項のバイアスを低減するためにクロスフィッティングを用いるが、シミュレーションでは木構造ベースの手法では性能が低下する可能性がある。
ヌイズ推定器の収束速度に関する正規性条件の下で、選択された効果修正要因の漸近的に有効な信頼区間を導出する。

実験結果

リサーチクエスチョン

RQ1高次元設定下で、データ駆動型モデル選択の後に効果修正のための有効な統計的推論を可能にする手法を開発できるか？
RQ2lassoによる選択バイアスが生じるにもかかわらず、選択された効果修正要因の信頼区間がどのようにして有効性を保つことができるか？
RQ3ヌイズパラメータ推定に機械学習を用いる場合、選択的推論の妥当性とカバレッジにどのような影響を与えるか？
RQ4本手法は、単変量サブグループ解析と比較して、偽発見率と真の効果修正要因を検出するパワーの面でどの程度優れているか？

主な発見

本手法は、標準的な半パラメトリック正規性条件の下で、高次元的モデル選択の後でも選択された効果修正要因に対して漸近的に有効な選択的推論を達成する。
シミュレーション研究により、重み付き平均治療効果および選択された効果修正要因の信頼区間が正しいカバレッジ率を維持することが確認され、偽発見の低減において単変量サブグループ解析を上回ることが示された。
理論的には妥当なクロスフィッティングは、ランダムフォレストでは尾部の予測バイアスのため、しばしば性能を低下させる可能性があるため、木構造ベースの手法を用いる際には注意が必要である。
ヌイズパラメータが機械学習で推定されても、収束速度が必要な正規性条件を満たしている限り、本手法は頑健である。
理論的裏付けはノイズの正規性仮定に依存しているが、ティアンとテイラー（2018）のランダム応答アプローチの拡張を用いることで、非正規誤差に対しても漸近的妥当性が拡張されると予想される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。