Skip to main content
QUICK REVIEW

[論文レビュー] Statistical power for cluster analysis

E. S. Dalmaijer, C. L. Nord|arXiv (Cornell University)|Mar 1, 2020
Statistical Methods and Bayesian Inference被引用数 26
ひとこと要約

本稿では、クラスタリング分析における統計的検出力の推定のためのシミュレーションベースのフレームワークを提案する。主な目的は、共通のアルゴリズムにおいて、サブグループのサイズ、分離度(効果量)、共分散構造が検出力に与える影響を評価することである。その結果、大きな効果量(Δ=4)または複数の小さな効果の累積的影響がある場合、サブグループあたりN=20–30で十分な検出力が得られ、重複する多変量正規分布に対しては、ファジークラスタリングや有限混合モデルがk-meansを上回ることがわかった。

ABSTRACT

Cluster algorithms are increasingly popular in biomedical research due to their compelling ability to identify discrete subgroups in data, and their increasing accessibility in mainstream software. While guidelines exist for algorithm selection and outcome evaluation, there are no firmly established ways of computing a priori statistical power for cluster analysis. Here, we estimated power and accuracy for common analysis pipelines through simulation. We varied subgroup size, number, separation (effect size), and covariance structure. We then subjected generated datasets to dimensionality reduction (none, multidimensional scaling, or UMAP) and cluster algorithms (k-means, agglomerative hierarchical clustering with Ward or average linkage and Euclidean or cosine distance, HDBSCAN). Finally, we compared the statistical power of discrete (k-means), "fuzzy" (c-means), and finite mixture modelling approaches (which include latent profile and latent class analysis). We found that outcomes were driven by large effect sizes or the accumulation of many smaller effects across features, and were unaffected by differences in covariance structure. Sufficient statistical power was achieved with relatively small samples (N=20 per subgroup), provided cluster separation is large (Δ=4). Fuzzy clustering provided a more parsimonious and powerful alternative for identifying separable multivariate normal distributions, particularly those with slightly lower centroid separation (Δ=3). Overall, we recommend that researchers 1) only apply cluster analysis when large subgroup separation is expected, 2) aim for sample sizes of N=20 to N=30 per expected subgroup, 3) use multidimensional scaling to improve cluster separation, and 4) use fuzzy clustering or finite mixture modelling approaches that are more powerful and more parsimonious with partially overlapping multivariate normal distributions.

研究の動機と目的

  • バイオメディカル研究におけるクラスタリング分析のための、確立された事前検出力分析手法の欠如に応えること。
  • サブグループのサイズ、サブグループ数、効果量(分離度)および共分散構造が統計的検出力に与える影響を評価すること。
  • 離散的(k-means)、ファジー(c-means)、有限混合モデル(潜在的プロファイル/クラス分析)アプローチの性能を比較すること。
  • サンプルサイズおよびアルゴリズム選択に関する証拠に基づく推奨事項を提供すること。
  • 次元削減(MDS、UMAP)がクラスタ分離および検出力に与える役割を評価すること。

提案手法

  • 制御されたサブグループのサイズ、分離度(Δ)、共分散構造を有する多変量正規分布のシミュレーテッドデータセット。
  • 3つの次元削減手法を適用:なし、多次元尺度構成法(MDS)、UMAP。
  • 6つのクラスタリングアルゴリズムを評価:k-means、ウォード法または平均リンクェージを用いた階層的凝集型クラスタリング、ユークリッド距離またはコサイン距離。
  • ファジーセントロイド法および有限混合モデル(潜在的プロファイル分析およびクラス分析)への分析を拡張。
  • 統計的検出力を、真のサブグループ数を正しく同定できたシミュレーションの割合として測定。
  • クラスタリングの正確性を評価するために受信者操作特性曲線(ROC)および調整ランダ指数(ARI)を用いた。

実験結果

リサーチクエスチョン

  • RQ1バイオメディカルデータにおけるクラスタリング分析で十分な統計的検出力を得るためには、どの程度のサンプルサイズが必要か?
  • RQ2クラスタ分離度(効果量Δ)は、真のサブグループを検出できる能力にどのように影響するか?
  • RQ3k-means、c-means、有限混合モデルといった異なるクラスタリングアルゴリズムは、検出力および正確性の観点でどのように比較されるか?
  • RQ4次元削減(MDSまたはUMAP)は、クラスタ検出の検出力をどの程度向上させるか?
  • RQ5変動する共分散構造は、クラスタリング分析の性能にどのように影響するか?

主な発見

  • 統計的検出力は、主に大きな効果量(Δ=4)または特徴量にわたる複数の小さな効果の累積的影響によって駆動された。
  • クラスタ分離度が大きい(Δ=4)場合には、サブグループあたりN=20で十分な検出力が達成された。
  • 中程度の分離度(Δ=3)の多変量正規分布に対しては、ファジークラスタリング(c-means)がk-meansよりも高い検出力とより高い簡潔性(parsimony)を示した。
  • 部分的に重複する分布に対しては、有限混合モデル(潜在的プロファイル分析およびクラス分析)がk-meansよりも検出力が高く、効率的であった。
  • 共分散構造は、シミュレーション条件のいかなる場合においてもクラスタリングの検出力や正確性に顕著な影響を及ぼさなかった。
  • MDSによる次元削減は、クラスタ分離を向上させ、特にファジーや混合モデルと組み合わせた場合に検出力を高めた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。