Skip to main content
QUICK REVIEW

[論文レビュー] Multidimensional multiscale scanning in Exponential Families: Limit theory and statistical consequences

Claudia König, Axel Munk|arXiv (Cornell University)|Feb 22, 2018
Statistical Methods and Inference被引用数 1
ひとこと要約

本稿では、指数型分布族のd次元フィールドにおける異常検出のための統一的マルチスケールスキャン法を提案し、尤度比検定を用いて、検定統計量の弱極限定理を確立し、家族-wise 偽発見率(FWER)の漸近的制御を証明する。主な貢献は、明示的な収束速度を伴うガウス近似であり、ガウス分布の場合に最小最大最適検出を可能にするとともに、厳密な誤差制御のもとで非 i.i.d. 指数型分布族モデルへのマルチスケール推論を拡張する。

ABSTRACT

We consider the problem of finding anomalies in a $d$-dimensional field of independent random variables $\{Y_i\}_{i \in \left\{1,...,n ight\}^d}$, each distributed according to a one-dimensional natural exponential family $\mathcal F = \left\{F_ heta ight\}_{ heta \in\Theta}$. Given some baseline parameter $ heta_0 \in\Theta$, the field is scanned using local likelihood ratio tests to detect from a (large) given system of regions $\mathcal{R}$ those regions $R \subset \left\{1,...,n ight\}^d$ with $ heta_i eq heta_0$ for some $i \in R$. We provide a unified methodology which controls the overall family wise error (FWER) to make a wrong detection at a given error rate. Fundamental to our method is a Gaussian approximation of the distribution of the underlying multiscale test statistic with explicit rate of convergence. From this, we obtain a weak limit theorem which can be seen as a generalized weak invariance principle to non identically distributed data and is of independent interest. Furthermore, we give an asymptotic expansion of the procedures power, which yields minimax optimality in case of Gaussian observations.

研究の動機と目的

  • 本稿の目的は、指数型分布からの独立な観測を持つd次元フィールドにおけるマルチスケールスキャンにおいて、家族-wise 偽発見率(FWER)を制御することである。
  • 本稿は、パラメータが逸脱した領域(局所的異常)を検出する挑戦に、大規模かつ複雑な候補領域の族における複数検定の影響を考慮して取り組む。
  • 本稿の目的は、ガウス分布、ポアソン分布、ベルヌーイ分布のモデルに一般化可能な一般的な手法を提供することである。これにより、先行研究のガウス分布に限った枠組みを拡張する。
  • 本稿は、指数型分布族における非同一分布データに対する弱不変性原理を導出することで、既存の手法を統一することを目的としている。
  • 本稿は、特定のモデル(特にガウスフィールド)における最小最大最適性を確立するための検出力の漸近的展開を導出することを目的としている。

提案手法

  • 本手法は、各候補領域Rに対して局所尤度比検定(LRT)を用い、検定統計量としてTR(Y, θ₀) = √(2 log supθ ∏i∈R fθ(Yi) / ∏i∈R fθ₀(Yi)) を使用する。
  • フレームワークは、領域Rが単位立方体内の固定形状の離散化版であると仮定し、n → ∞ における漸近的解析を可能にする。
  • 主な技術的革新は、非 i.i.d. データに対する一般化された弱不変性原理を用いて、マルチスケール検定統計量のガウス近似を明示的な収束速度で導出することである。
  • 本手法は、すべての領域における検定統計量の最大値の弱極限定理を導出することで、FWERを漸近的に制御する。
  • 領域クラスの複雑さを制御するために、メトリックエントロピーの境界と被覆論法(例えば、超長方形、半空間、球面キャップに対して)を用いる。
  • 本手法は漸近的検出力展開を通じて妥当化され、ガウス観測値において最小最大最適検出を達成することが示されている。

実験結果

リサーチクエスチョン

  • RQ1d次元の指数型分布族フィールドにおけるマルチスケールスキャンにおいて、観測値が非同一分布である可能性がある場合、家族-wise 偽発見率(FWER)をどのように制御できるか?
  • RQ2帰無仮説下におけるマルチスケール尤度比検定統計量の極限分布は何か? また、明示的な収束速度を伴うガウス過程による近似は可能か?
  • RQ3本手法は、特にポアソン分布やベルヌーイ分布などの非ガウス的指数型分布族において、ガウス分布に限った手法と比較して、どの程度検出力を向上させるか?
  • RQ4本手法はガウスフィールドにおいて最小最大最適検出を達成できるか? また、その最適性を裏付ける漸近的検出力展開は何か?
  • RQ5超長方形、半空間などの領域クラスの複雑さは、どのように制御すれば漸近的 FWER 制御を保証できるか?

主な発見

  • 本稿は、指数型分布族におけるマルチスケール検定統計量の弱極限定理を確立し、非 i.i.d. データに対する弱不変性原理を一般化した。
  • 明示的な収束速度を伴う検定統計量のガウス近似が導出され、有限標本でも正確な FWER 制御が可能である。
  • 本手法は漸近的にレベルαで FWER を制御し、n → ∞ のとき supH_R,n P H_R,n P(Φ が任意の R' ⊂ R について H_R',n を棄却する) ≤ α + o(1) を満たす。
  • ガウス観測値の場合、漸近的検出力展開により最小最大最適検出が達成され、既知の最小最大下界と一致することが確認された。
  • 超長方形、半空間、球面キャップなどの領域クラスの被覆数境界が、δ と u に明示的な依存関係を伴って導出され、複雑さが多項式的増加であることが示された。
  • 結果はガウス分布、ポアソン分布、ベルヌーイ分布を含む指数型分布族全体にわたりロバストであり、ガウス分布に限った手法と比較して、検出力と有限標本の精度が向上している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。