Skip to main content
QUICK REVIEW

[論文レビュー] Two-sample testing with Dirichlet mixtures

Eric F. Lock, David B. Dunson|arXiv (Cornell University)|Nov 1, 2013
Bayesian Methods and Mixture Models参考文献 18被引用数 1
ひとこと要約

本稿では、共有されたカーネル混合にわたるディリクレ混合事前分布を用いたベイジアン二標本検定法を提案する。この手法は、変数間で強みを借りることで高次元分布比較の性能を向上させる。モデル不適合下でも一貫性を示し、パーミュテーションを用いた推定により、DNAメチル化解析データにおいて型Iエラーを制御しながら、競合手法を上回る性能を発揮する。

ABSTRACT

This article concerns testing for equality of distribution between groups. We focus on screening variables with shared distributional features such as common support, modes and patterns of skewness. We propose a Bayesian testing method using kernel mixtures, which improves performance by borrowing information across the different variables and groups through shared kernels and a common probability of group differences. The inclusion of shared kernels in a finite mixture, with Dirichlet priors on the weights, leads to a simple framework for testing that scales well for high-dimensional data. We provide closed asymptotic forms for the posterior probability of equivalence in two groups and prove consistency under model misspecification. The method is applied to DNA methylation array data from a breast cancer study, and compares favorably to competitors when type I error is estimated via permutation.

研究の動機と目的

  • 共有された分布的特徴(サポート、モード、歪度など)を有する高次元データ向けに、スケーラブルなベイジアン二標本検定フレームワークの開発。
  • 有限混合モデルにおける共有カーネルを通じて、変数間で情報を借用することで、検定性能の向上。
  • モデル不適合下でも、等価性の事後確率の一貫性を保証。
  • 次元に伴うスケーリングに優れ、型Iエラー率を制御する計算効率の良い手法の提供。

提案手法

  • グループ固有の分布をモデル化するために、変数間で共有されるカーネル密度の有限混合を用いる。
  • 混合成分の重みにディリクレ事前分布を適用し、変数間での縮小と情報の借用を可能にする。
  • すべての変数に共通するグループ差の確率を実装し、証拠を共有することで推定の安定性を向上。
  • 二群間の等価性の事後確率に対する閉形式の漸近近似を導出。
  • カーネル成分を変数間で共有するが、グループ固有の混合重みは各変数ごとに推定される階層ベイジアンモデルを採用。
  • 事後オッズを用いて分布的等価性を検定し、モデルが不適合であっても一貫性が証明されている。

実験結果

リサーチクエスチョン

  • RQ1共有カーネル混合モデルは、変数間で強みを借りることで、高次元設定下での二標本検定性能を向上させることができるか?
  • RQ2本手法は、特にモデル不適合下において、高次元データでの型Iエラーをどのように制御するか?
  • RQ3本手法のディリクレ混合フレームワーク下での、等価性の事後確率の漸近的挙動は何か?
  • RQ4本手法は、実際のエピジェネムックス解析データにおいて、既存の競合手法と比べてパワーと誤検出制御の点でどのように差をつけるか?
  • RQ5共有カーネルと共通のグループ差の確率の使用により、真の分布が完全に捉えらえない場合でも一貫性のある推論が可能になるか?

主な発見

  • モデル不適合下でも、等価性の事後確率の推定が一貫しており、信頼性の高い推論を保証する。
  • 等価性の事後確率に対する閉形式の漸近近似により、高次元設定下での計算が効率的に行える。
  • DNAメチル化アレイ解析データにおいて、パーミュテーションによる推定で型Iエラーを制御しながら、パワー面で競合手法を上回る性能を示す。
  • 共有カーネルの使用により、サポートや歪度などの類似した分布的特徴を有する変数間で情報のプールが可能となり、性能向上が達成される。
  • グループ差の確率を全変数に共通して含めることで、高次元検定におけるロバストネスが向上し、過剰適合が軽減される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。