QUICK REVIEW

[論文レビュー] Some nonasymptotic results on resampling in high dimension, I: Confidence regions, II: Multiple tests

Sylvain Arlot, Gilles Blanchard|arXiv (Cornell University)|Dec 5, 2007

Statistical Methods and Inference参考文献 22被引用数 4

ひとこと要約

本稿では、一般化ブートストラップおよびラダマッハ重みを特に注目して、リサンプリング手法を用いて高次元データにおける非漸近的信頼領域および多重仮説検定手順を開発する。一般の自己回帰構造のもとでも、次元Kが標本サイズnを著しく超える状況においても、濃縮不等式およびリサンプリングされた分位数を活用することで、有限標本における誤差制御が理論的に有効であることを確立する。

ABSTRACT

We study generalized bootstrap confidence regions for the mean of a random vector whose coordinates have an unknown dependency structure. The random vector is supposed to be either Gaussian or to have a symmetric and bounded distribution. The dimensionality of the vector can possibly be much larger than the number of observations and we focus on a nonasymptotic control of the confidence level, following ideas inspired by recent results in learning theory. We consider two approaches, the first based on a concentration principle (valid for a large class of resampling weights) and the second on a resampled quantile, specifically using Rademacher weights. Several intermediate results established in the approach based on concentration principles are of interest in their own right. We also discuss the question of accuracy when using Monte Carlo approximations of the resampled quantities.

研究の動機と目的

次元Kが標本サイズnを著しく超える状況（K ≫ n）で、依存構造が未知の高次元確率的ベクトルの平均に対する非漸近的信頼領域を開発すること。
従来の多変量正規分布推論が次元の高さのため失敗する状況においても、共分散構造にパラメトリックな仮定を避けられること。
リサンプリングに基づく推論における、理論的根拠に基づいた有限標本における誤差制御を提供すること。
特にブートストラップおよびラダマッハ重みを用いたリサンプリング手法を、強い誤差率制御（FWER）を達成する多重仮説検定に拡張すること。
モンテカルロ近似がリサンプリング統計量に与える影響を分析し、実用的で正確な実装を提案すること。

提案手法

独立同一分布のリサンプリング重み（例：ラダマッハまたは多項分布）を用いた一般化リサンプリングにより、中心化された標本平均の分布を推定する。
濃縮不等式を適用して、リサンプリング統計量がその条件付き期待値からどれほど逸脱するかを制御し、非漸近的カバレッジを保証する。
リサンプリング分位数から導かれるデータ依存のしきい値を用いて信頼領域を定義する。具体的には、φ(Y−x)のリサンプリング分布の(1−α)分位数を用いる。
中心化されたリサンプリング分位数に基づくステップダウン多重仮説検定手順を提案し、有限標本におけるFWER制御のため、ボンフェローニ型補正を用いてしきい値を調整する。
計算速度と正確性の両立を図るため、中心化済みおよび非中心化分位数を組み合わせたハイブリッドアルゴリズムを導入する。
モンテカルロ近似がリサンプリングしきい値に与える影響を分析し、誤差の理論的境界を提供する。

実験結果

リサーチクエスチョン

RQ1K ≫ n であり、依存構造が未知の高次元設定において、リサンプリング手法が有効な非漸近的信頼領域を提供できるか？
RQ2パラメトリックモデルや独立性の仮定なしに、リサンプリングに基づく多重仮説検定手順が、家族誤差率（FWER）をどのように制御できるか？
RQ3リサンプリングの前にデータを中心化することは、リサンプリングしきい値の妥当性および性能にどのような影響を与えるか？
RQ4理論的補正項（例：ボンフェローニ補正）は、有限標本におけるリサンプリングに基づく推論の保守性にどのように影響するか？
RQ5理論的誤差制御を保ちつつ、実用的においてリサンプリング統計量のモンテカルロ近似を信頼して使用できるか？

主な発見

提案された信頼領域は、一般の対称性および有界性の仮定のもとで、K ≫ n であっても非漸近的（1−α）カバレッジを達成する。
ラダマッハ重みの使用により、共分散構造にパラメトリックな仮定を必要とせず、濃縮に基づくアプローチが可能となり、有限標本における誤差制御が理論的に有効である。
中心化されたリサンプリング分位数に基づくステップダウン多重仮説検定手順は、弱い分布的仮定のもとで、非漸近的に家族誤差率（FWER）を制御する。理論的保証が得られる。
シミュレーションにより、座標間の依存性が強い状況では、リサンプリングに基づくしきい値がホルムの手続きを上回ることを示しており、依存性への適応性が優れている。
中心化済みおよび非中心化分位数を組み合わせたハイブリッドアルゴリズムは、非中心化手法に近い計算速度を達成しながら、中心化の理論的利点を維持する。
理論的分析により、しきい値における剰余項が保守的であることが確認され、よりきめの細かい境界を用いることで、有限標本における性能向上が可能であると示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。