[論文レビュー] Least trimmed squares regression with missing values and cellwise outliers
この論文は、セルレベルの外れ値と予測子の欠損データを清掃する二段階のロバスト回帰法 cellLTS を提案し、清掃済み行列に対して堅牢な LTS 回帰を適用してロバストなアウトオブサンプル予測を実現します。
Regression is the workhorse of statistics, and is often faced with real data that contain outliers. When these are casewise outliers, that is, cases that are entirely wrong or belong to a different population, the issue can be remedied by existing casewise robust regression methods. It is another matter when cellwise outliers occur, that is, suspicious individual entries in the data matrix containing the regressors and the response. We propose a new regression method that is robust to both casewise and cellwise outliers, and handles missing values as well. Its construction allows for skewed distributions. We show that it obeys the first breakdown result for cellwise robust regression. It is also the first such method that is geared to making robust out-of-sample predictions. Its performance is studied by simulation, and it is illustrated on a substantial real dataset.
研究の動機と目的
- セルレベルの外れ値と欠損エントリの両方を含むデータに対して回帰分析を動機付ける。
- まず予測子を清掃し、次に応答を堅牢に回帰させる二段ロジックを開発する。
- 歪みを考慮し堅牢性を向上させるための対称化アプローチを提供する。
- 理論的な分解特性を確立し、シミュレーションデータおよび実データで実証性能を示す。
提案手法
- 対称化された予測子に対して cellMCD を適用し、汚染セルを検出・補完する。
- 堅牢な推定値と最良線形予測を用いて欠損値と外れセルを補完する。
- 応答と回帰子を対称化し、標準化して、拡張データ上でセルレベルの堅牢な LTS(cellLTS)を実行する。
- 堅牢な解の安定化と切片の取得のために小さなリッジペナルティを使用する。
- 新しい入力を予測する前にクリーニングしてアウトオブサンプル予測を行う手順を提供する。

実験結果
リサーチクエスチョン
- RQ1セルレベルの外れ値と欠損値が同時に存在する場合、回帰係数をどのように堅牢に推定するか?
- RQ2セルレベルの清掃を行った後にケースワイズ回帰を適用して信頼できるアウトオブサンプル予測を得られるか?
- RQ3提案されたセルレベル堅牢回帰法の分解特性はどうなるか?
- RQ4さまざまな分布と混入パターンの下で、従来の堅牢回帰法と比較して方法はどのように性能を示すか?
主な発見
- 提案する cellLTS 法は、歪んだ予測子とガウス分布の予測子を用いた設定でも、係数の精度とアウトオブサンプル予測の面で競合法より優れている。
- 実用的な k(例:20回のランダム置換)による対称化は、全ペア差分と同等の結果を提供しつつ計算を削減する。
- 本手法は回帰推定量として初めてセルレベルの分解値を報告する成果を達成し、分解挙動は汚染セルの割合に結びつく。
- 実データのがん死亡率の例では、cellLTS は OLS とは異なる係数と予測を示し、セルレベルの診断(cellmap)として外れ値エントリの解釈可能な情報を提供する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。