QUICK REVIEW

[論文レビュー] Statistical Significance for Hierarchical Clustering

Patrick K. Kimes, Yufeng Liu|arXiv (Cornell University)|Nov 19, 2014

Gene expression and cancer classification参考文献 2被引用数 28

ひとこと要約

本稿では、高次元・小標本サイズの設定において階層的クラスタリングの家族誤差率（FWER）を制御するモンテカルロに基づく逐次仮説検定手順である統計的有意性の階層的クラスタリング（SHC）を提案する。この手法は、デンドログラムのネスト構造を活用し、各マージステップでのクラスタの有意性を検定する。シミュレーションおよび実際のがん遺伝子発現データにおいて、真のクラスタ構造を強く検出できる高い検出力を持つことが示された。

ABSTRACT

Cluster analysis has proved to be an invaluable tool for the exploratory and unsupervised analysis of high dimensional datasets. Among methods for clustering, hierarchical approaches have enjoyed substantial popularity in genomics and other fields for their ability to simultaneously uncover multiple layers of clustering structure. A critical and challenging question in cluster analysis is whether the identified clusters represent important underlying structure or are artifacts of natural sampling variation. Few approaches have been proposed for addressing this problem in the context of hierarchical clustering, for which the problem is further complicated by the natural tree structure of the partition, and the multiplicity of tests required to parse the layers of nested clusters. In this paper, we propose a Monte Carlo based approach for testing statistical significance in hierarchical clustering which addresses these issues. The approach is implemented as a sequential testing procedure guaranteeing control of the family-wise error rate. Theoretical justification is provided for our approach, and its power to detect true clustering structure is illustrated through several simulation studies and applications to two cancer gene expression datasets.

研究の動機と目的

階層的クラスタリングにおいて、生物学的に意味のあるクラスタ構造とサンプリングアーティファクトを区別するという重要な課題に取り組むこと。
階層的クラスタリングに内在するネストされた順序付き多重検定の性質を踏まえ、家族誤差率（FWER）を制御する手法を開発すること。
従来の手法が失敗する、ゲノム分野で一般的な高次元・小標本サイズ（HDLSS）設定において、統計的有意性の検定を可能にすること。
階層的ツリー構造を尊重し、任意のクラスタカットオフを回避する逐次検定フレームワークを提供すること。
研究者が観測されたクラスタが統計的に有意であるか、それとも偶然に起因するかを評価できる実用的でRで実装されたソリューションを提供すること。

提案手法

階層的クラスタリングのデンドログラムにおける各マージの有意性を評価する、モンテカルロに基づく逐次仮説検定手順を提案する。
各マージについて、マージされる2つのクラスタが本質的に区別されないという帰無仮説を検定し、それに対してそれらが真の潜在的クラスタ構造を表すという対立仮説を検証する。
リッジングに基づく検定統計量（加重平均距離）を用い、観測されたクラスタ分離度と、リサンプリングによって生成された帰無分布における分離度を比較する。
階層構造全体にわたる有意水準の調整を実現する逐次停止ルールを用いて、家族誤差率（FWER）を制御する。
次元数（p）が非常に大きくなるというHDLSS設定下での漸近理論を用いて、この手法の妥当性を裏付ける。
帰無仮説の下でデータを並べ替えるリサンプリングスキームを採用し、各マージの実証的p値を生成することで、高次元における頑健性を確保する。

実験結果

リサーチクエスチョン

RQ1ネスト構造と木構造を持つ結果を考慮に入れながら、階層的クラスタリングにおけるクラスタの有意性を評価する統計的検定を開発することは可能か？
RQ2デンドログラムのマージの階層的構造において、相関のある多重検定が行われる状況で、家族誤差率（FWER）をどのように制御できるか？
RQ3提案手法は、高次元・小標本サイズ（HDLSS）のゲノムデータセットにおいて、真のクラスタ構造を効果的に検出できるか？
RQ4pvclust や SigClust といった既存手法と比較して、SHCの検出力およびHDLSS設定への適用可能性はいかがなっているか？
RQ5次元数 p → ∞ の漸近的条件下で、この手法に理論的裏付けを与えることは可能か？

主な発見

SHC手法は、高次元設定でさえも、階層的検定系列全体において家族誤差率（FWER）を効果的に制御している。
理論的裏付けとして、HDLSSの漸近的状態下では、各マージの実証的p値が対立仮説のもとで0に収束することを示しており、検定の妥当性が保証される。
シミュレーション研究により、SHCは適切な第一種過誤制御を維持しており、特にクラスタ分離度が高い場合に真のクラスタ構造を高検出力で検出できることを示した。
2つの実際のがん遺伝子発現データセットへの応用において、SHCは既知の臨床的サブタイプと整合する生物学的に意味のあるサブタイプを同定し、ヒューリスティックなクラスタ選択手法を上回った。
HDLSS設定においても頑健性を示し、計算的にも実行可能である。これは、次元が低い場合に失敗する一部の代替手法（例：pvclust）とは対照的である。
逐次検定手順により、任意のカットオフを避ける、原理的で明確な停止ルールが可能となり、最も統計的に有意なクラスタリングレベルを同定できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。