[論文レビュー] Clustering by compression
この論文は、分野特有の特徴量に依存せずに圧縮アルゴリズムを活用することで、データのクラスタリングを可能にする普遍的な類似度メトリクス、正規化圧縮距離(NCD)を導入する。圧縮と階層的クラスタリングのみを用いて、ゲノム、ウイルス学、言語学、音楽、天文学など多様な分野で、ドメイン特有の特徴量に依存しない強固なクラスタリングを実現し、専門家の分類と整合性の高い結果を得た。
We present a new method for clustering based on compression. The method doesn't use subject-specific features or background knowledge, and works as follows: First, we determine a universal similarity distance, the normalized compression distance or NCD, computed from the lengths of compressed data files (singly and in pairwise concatenation). Second, we apply a hierarchical clustering method. The NCD is universal in that it is not restricted to a specific application area, and works across application area boundaries. A theoretical precursor, the normalized information distance, co-developed by one of the authors, is provably optimal but uses the non-computable notion of Kolmogorov complexity. We propose precise notions of similarity metric, normal compressor, and show that the NCD based on a normal compressor is a similarity metric that approximates universality. To extract a hierarchy of clusters from the distance matrix, we determine a dendrogram (binary tree) by a new quartet method and a fast heuristic to implement it. The method is implemented and available as public software, and is robust under choice of different compressors. To substantiate our claims of universality and robustness, we report evidence of successful application in areas as diverse as genomics, virology, languages, literature, music, handwritten digits, astronomy, and combinations of objects from completely different domains, using statistical, dictionary, and block sorting compressors. In genomics we presented new evidence for major questions in Mammalian evolution, based on whole-mitochondrial genomic analysis: the Eutherian orders and the Marsupionta hypothesis against the Theria hypothesis.
研究の動機と目的
- 分野特有の専門知識を必要とせず、多様な分野に適用可能な普遍的で特徴量に依存しない類似度メトリクスの開発。
- コルモゴロフ複雑度に基づく理論的最適な正規化情報距離と、実用的で計算可能なクラスタリングの間のギャップを埋めるために、実世界の圧縮アルゴリズムを用いてそれを近似する。
- データ圧縮と階層的クラスタリングのみを用いて、アプリケーションの境界を超えて動作する強固で普遍的なクラスタリングフレームワークの構築。
- 多様なデータタイプと複数の圧縮アルゴリズムを用いた広範な実験を通じて、手法の普遍性と強健性の検証。
- 未知のデータにおいて、支配的類似特徴を自動で発見可能にすることで、探索的データ分析や機械学習応用を支援。
提案手法
- 実世界の圧縮アルゴリズムを用いて、理論的正規化情報距離の正規化可能で計算可能な近似として、正規化圧縮距離(NCD)を定義する。
- 次の式を用いてデータオブジェクト間のNCDを計算する:NCD(x,y) = [C(xy) - min(C(x), C(y))] / max(C(x), C(y))、ここでCは圧縮アルゴリズムであり、C(xy)は連結ファイルの圧縮サイズを表す。
- PPMZ、bzip2、gzipなどの通常の圧縮アルゴリズムを用いてコルモゴロフ複雑度を近似し、NCDが有効な類似度メトリクスのまま保たれることを保証する。
- すべてのデータオブジェクト間のペアワイズNCD値から距離行列を構築する。
- 四分木法のための新しい高速ヒューリスティックを用いて、距離行列から階層的デンドログラム(2分木)を構築する。
- 得られたクラスタを、さまざまな分野における専門家の分類と照合して可視化および検証する。

実験結果
リサーチクエスチョン
- RQ1圧縮に基づく類似度メトリクスは、分野特有の特徴量に依存せずに、多様なデータドメインに普遍的に適用可能か?
- RQ2実際の圧縮アルゴリズムから得られるNCDは、理論的最適な正規化情報距離をどの程度正確に近似するか?
- RQ3NCDのクラスタリング性能は、異なる種類の圧縮アルゴリズムやデータタイプに対してどの程度強健か?
- RQ4NCDは、特徴量が未知または複雑なデータにおいて、支配的類似特徴を自動で発見できるか?
- RQ5NCDに基づくクラスタリングは、ゲノムや天文学などの実世界の科学的分野で、専門家の分類と整合性を示すか?
主な発見
- NCD法は、マイクロクェーサーGRO 1915+105の16個のX線観測区間をクラスタリングした際、専門家の分類(3つの変動モードに分類)と類似度スコアS(T) = 0.994で極めて近い結果を得た。
- この手法は、哺乳類の進化におけるマラスピオントア仮説を支持する新たな証拠を提供するために、全ミトコンドリアゲノムのクラスタリングに成功した。
- 50種以上のユーラシア言語のNCDベースクラスタリングにより、歴史的言語学的分類と整合性のある言語木が得られ、言語間の普遍性が裏付けられた。
- この手法は、学生の提出物における不正コピーの検出を高精度で実現し、教育および文書分析応用における有用性を示した。
- 手書き数字と音楽ファイルのNCDベースクラスタリングは、特徴量設計なしで既知のカテゴリと高い一貫性を示した。
- この手法の性能は、PPMZ、bzip2、gzipなどの異なる圧縮アルゴリズムにおいても強健であったため、圧縮アルゴリズムの選択に依存しないことが示された。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。