QUICK REVIEW

[論文レビュー] Adjusting for Chance Clustering Comparison Measures

Simone Romano, Nguyễn Xuân Vinh|arXiv (Cornell University)|Dec 3, 2015

Statistical Mechanics and Entropy参考文献 39被引用数 135

ひとこと要約

本稿は、Tsallisエントロピーに基づく一般化された情報理論的測度を用いて、ランダム性を補正する統一的なフレームワークを提示する。一般化された情報理論的測度の期待値と分散を解析的に計算し、ARI や AMI といった有名な指標を包含する一般化された調整済み指標を提供する。クラスタ構造に応じた最適な使用法に関する根拠に基づくガイドラインも提示する。

ABSTRACT

Adjusted for chance measures are widely used to compare partitions/clusterings of the same data set. In particular, the Adjusted Rand Index (ARI) based on pair-counting, and the Adjusted Mutual Information (AMI) based on Shannon information theory are very popular in the clustering community. Nonetheless it is an open problem as to what are the best application scenarios for each measure and guidelines in the literature for their usage are sparse, with the result that users often resort to using both. Generalized Information Theoretic (IT) measures based on the Tsallis entropy have been shown to link pair-counting and Shannon IT measures. In this paper, we aim to bridge the gap between adjustment of measures based on pair-counting and measures based on information theory. We solve the key technical challenge of analytically computing the expected value and variance of generalized IT measures. This allows us to propose adjustments of generalized IT measures, which reduce to well known adjusted clustering comparison measures as special cases. Using the theory of generalized IT measures, we are able to propose the following guidelines for using ARI and AMI as external validation indices: ARI should be used when the reference clustering has large equal sized clusters; AMI should be used when the reference clustering is unbalanced and there exist small clusters.

研究の動機と目的

ペアカウント測度（例：ARI）と情報理論的測度（例：AMI）の調整手法の間のギャップを埋めること。
ランダムなクラスタリング下での一般化された情報理論的測度の期待値と分散を解析的に計算する技術的課題を解決すること。
ARI や AMI が特別な場合として包含される一般化された調整済み測度の族を開発すること。
基準クラスタリングの構造に応じて、ARI と AMI の間で選択するためのデータ駆動型ガイドラインを提供すること。

提案手法

Tsallis $q$-エントロピーに基づく一般化された情報理論的測度を特別な場合として含む測度クラス $\mathcal{L}_{\phi}$ を導入する。
ランダムかつ独立なクラスタリングの帰無仮説の下で、$\mathcal{L}_{\phi}$ に属する測度の期待値と分散の解析的表現を導出する。
zスコアによる標準化（例：SMI$_q$, SVI$_q$）を提案し、クラスタリング比較におけるベースラインバイアスと選択バイアスを補正する。
テイラー展開とコーシー＝シュワルツの不等式を用いて分散を評価し、サンプルサイズが大きくなると漸近的にゼロに収束することを確立する。
対象数が大きい場合に漸近的期待値を近似できるより広い族 $\mathcal{N}_{\phi}$ を定義する。
Cantelliの不等式を用いて、調整済み測度の統計的有意性のための保守的p値を導出する。

実験結果

リサーチクエスチョン

RQ1調整付きランダムインデックス（ARI）と調整付き相互情報量（AMI）の最適な適用状況は何か？
RQ2ペアカウント測度と情報理論的測度の両方をランダム性に対して調整する統一的解析的フレームワークを開発できるか？
RQ3ランダムなクラスタリング下で、一般化された情報理論的測度の期待値と分散を解析的に計算できるか？
RQ4標準化はクラスタリング比較測度における選択バイアスをどの程度軽減するか？
RQ5ARI や AMI が特別な場合として包含される一般化された調整済み測度を導出できるか？

主な発見

Tsallis $q$-エントロピーに基づく一般化された情報理論的測度の期待値と分散は、ランダムかつ独立なクラスタリングの帰無仮説の下で解析的に計算可能である。
SMI$_q$ や SVI$_q$ といった提案された一般化された調整済み測度は、標準的なzスコアに等しく、$q \to 1$ の極限でARIやAMIに還元される。
本フレームワークにより、ペアカウント測度の統計的標準化が初めて可能となり、クラスタリング比較における選択バイアスの補正が可能になる。
基準クラスタリングが不均衡で小さなクラスタを含む場合はAMIが推奨され、クラスタが大きく均等な場合はARIが好まれる。
一般化された測度の分散は、対象数 $N$ が増加するにつれてゼロに近づき、調整済みインデックスの漸近的安定性が保証される。
Cantelliの不等式を用いることで保守的p値を計算可能となり、クラスタリング類似度の有意性を統計的に検定できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。