QUICK REVIEW

[論文レビュー] ClustOfVar: An R Package for the Clustering of Variables

Marie Chavent, Vanessa Kuentz|arXiv (Cornell University)|Dec 1, 2011

Advanced Clustering Algorithms Research被引用数 45

ひとこと要約

この論文では、PCAMIXから導出される合成変数に対する相関比と平方相関に基づく同質性基準を用いて、定量的および定性的変数の混合型変数のクラスタリングを可能にするRパッケージClustOfVarを紹介する。この手法は階層的およびk-means型クラスタリングをサポートし、ブートストラップを用いた安定性評価を備えており、解釈可能性を保ちながら次元削減を実現するPCAの代替手段を提供する。欠損データは単純な単純代入により処理される。

ABSTRACT

Clustering of variables is as a way to arrange variables into homogeneous clusters, i.e., groups of variables which are strongly related to each other and thus bring the same information. These approaches can then be useful for dimension reduction and variable selection. Several specific methods have been developed for the clustering of numerical variables. However concerning qualitative variables or mixtures of quantitative and qualitative variables, far fewer methods have been proposed. The R package ClustOfVar was specifically developed for this purpose. The homogeneity criterion of a cluster is defined as the sum of correlation ratios (for qualitative variables) and squared correlations (for quantitative variables) to a synthetic quantitative variable, summarizing "as good as possible" the variables in the cluster. This synthetic variable is the first principal component obtained with the PCAMIX method. Two algorithms for the clustering of variables are proposed: iterative relocation algorithm and ascendant hierarchical clustering. We also propose a bootstrap approach in order to determine suitable numbers of clusters. We illustrate the methodologies and the associated package on small datasets.

研究の動機と目的

既存の手法に制限がある混合型変数（定量的および定性的）のクラスタリングを統合的に扱えるRパッケージの開発を目的とする。
特に定性的または混合型変数セットに対して、専用のRツールが不足している現状に対処することを目的とする。
元のデータをクラスタからの合成変数に置き換える次元削減アプローチを提供し、解釈可能性を向上させるとともに冗長性を低減することを目的とする。
階層的およびk-means型のアルゴリズムを提供し、ブートストラップを用いた安定性評価により最適なクラスタ数の選択を支援することを目的とする。
定量的変数は平均値、定性的変数はインジケータ行列でゼロに置き換える単純代入により欠損データを処理しながら、使いやすさを維持することを目的とする。

提案手法

クラスタの同質性は、合成定量変数に対する平方相関（定量的変数）および相関比（定性的変数）の和で測定される。
合成変数は、混合型定量的および定性的データの主成分分析手法であるPCAMIXの第一主成分として定義される。
2つのアルゴリズムが実装されている：反復的再配置k-means型アルゴリズム（kmeansvar）および凝集型階層的クラスタリングアルゴリズム（hclustvar）。
これらのアルゴリズムは、クラスタ内の変数がそのクラスタの合成変数とどの程度相関するかを反映する同質性基準を最大化する。
ブートストラップリサンプリングを用いてクラスタの安定性を評価し、最適なクラスタ数の選択を支援する。
欠損値は、定量的変数はその平均値に、定性的変数はインジケータ行列でゼロに置き換えることで処理される。

実験結果

リサーチクエスチョン

RQ1混合型データ（定量的および定性的変数）に対して、解釈可能性と冗長性の検出を保ちながら、変数クラスタリングを効果的に適用する方法は何か？
RQ2混合データ環境下における階層的およびk-means型クラスタリングアルゴリズムの相対的な性能はどのように異なるか？
RQ3PCAMIXから導出される合成変数は、変数クラスタの信頼性と解釈可能性の高い要約として機能できるか？
RQ4混合データにおける変数クラスタリングのクラスタ数を客観的にどのように決定できるか？
RQ5本パッケージは、クラスタリングの品質を損なわせることなく、欠損データをどの程度処理できるか？

主な発見

ワインデータセット（n=21, p=31）において、階層的クラスタリングアルゴリズム（hclustvar）の同質性基準は56.84であり、10回のランダムスタートを伴うk-means型アルゴリズム（kmeansvar）の51.02を上回った。
ワインデータセット（n=21, p=31）において、階層法は「Soil」（相関比 ≈ 0.78）および「Odor.Intensity」（平方負荷 ≈ 0.76）を含むクラスタを特定し、合成変数と強い関連があることを示した。
ClustOfVarのクラスタから得られる合成変数は、元の混合型データ行列の定量的置換として利用可能であり、PCAと同様の後続分析を可能にする。
k-means型アルゴリズム（kmeansvar）は、大規模データセットではhclustvarよりも高速であるが、平均的な同質性は低い。
ブートストラップリサンプリングは、安定性の評価およびクラスタ数の選択を支援するために効果的に使用された。
パッケージは単純代入により欠損データを処理するが、欠損データの割合が高い場合には性能が低下する可能性があるため、専用の代入パッケージによる事前処理を推奨する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。