[论文解读] ClustOfVar: An R Package for the Clustering of Variables
本论文介绍了 R 包 ClustOfVar,该包基于 PCAMIX 衍生的合成变量,利用列联相关系数和相关比率的同质性准则,实现了对混合类型变量(定量与定性)的聚类。该方法支持层次聚类和 k-means 类型聚类,并通过自助抽样法评估聚类稳定性,提供了一种可解释性更强、能处理缺失数据(通过简单插补)的主成分分析替代方案。
Clustering of variables is as a way to arrange variables into homogeneous clusters, i.e., groups of variables which are strongly related to each other and thus bring the same information. These approaches can then be useful for dimension reduction and variable selection. Several specific methods have been developed for the clustering of numerical variables. However concerning qualitative variables or mixtures of quantitative and qualitative variables, far fewer methods have been proposed. The R package ClustOfVar was specifically developed for this purpose. The homogeneity criterion of a cluster is defined as the sum of correlation ratios (for qualitative variables) and squared correlations (for quantitative variables) to a synthetic quantitative variable, summarizing "as good as possible" the variables in the cluster. This synthetic variable is the first principal component obtained with the PCAMIX method. Two algorithms for the clustering of variables are proposed: iterative relocation algorithm and ascendant hierarchical clustering. We also propose a bootstrap approach in order to determine suitable numbers of clusters. We illustrate the methodologies and the associated package on small datasets.
研究动机与目标
- 开发一个统一的 R 包,用于对混合类型变量(定量与定性)进行聚类,以弥补现有方法的局限性。
- 解决在混合数据中,特别是针对定性或混合类型变量集合时,缺乏专门的 R 工具用于变量聚类的问题。
- 提供一种降维方法,用聚类生成的合成变量替代原始数据,提升可解释性并减少冗余。
- 提供层次聚类与 k-means 类型算法,并通过自助抽样法评估稳定性,以指导最优聚类数的选择。
- 通过简单插补(定量变量用均值,定性变量在指示矩阵中置零)处理缺失数据,同时保持使用便捷性。
提出的方法
- 通过变量与合成定量变量之间的平方相关系数(定量变量)和相关比率(定性变量)之和来衡量聚类的同质性。
- 合成变量定义为 PCAMIX 的第一主成分,PCAMIX 是一种用于混合定量与定性数据的主成分分析方法。
- 实现了两种算法:一种迭代重定位的 k-means 类型算法(kmeansvar)和一种凝聚式层次聚类算法(hclustvar)。
- 这些算法通过最大化同质性准则来优化,该准则反映聚类内变量与聚类合成变量之间的相关性。
- 通过自助抽样法评估聚类稳定性,并指导最优聚类数的选择。
- 缺失值通过将定量变量替换为其均值,定性变量在指示矩阵中置零来处理。
实验结果
研究问题
- RQ1如何在保留可解释性与冗余检测能力的前提下,有效将变量聚类应用于混合类型数据(定量与定性变量)?
- RQ2在混合数据设置下,层次聚类与 k-means 类型聚类算法在变量聚类中的相对性能如何?
- RQ3能否利用 PCAMIX 衍生的合成变量作为聚类变量的可靠且可解释的汇总表示?
- RQ4如何在混合数据变量聚类中客观确定聚类数量?
- RQ5该包在不损害聚类质量的前提下,对缺失数据的处理能力如何?
主要发现
- 在葡萄酒数据集上,层次聚类算法(hclustvar)的同质性准则值为 56.84,高于 k-means 类型算法(kmeansvar)在 10 次随机启动下的 51.02。
- 在葡萄酒数据集(n=21,p=31)中,层次方法识别出一个包含 'Soil'(相关比率 ≈ 0.78)和 'Odor.Intensity'(平方载荷 ≈ 0.76)的聚类,表明其与合成变量具有强关联。
- ClustOfVar 聚类生成的合成变量可作为原始混合数据矩阵的定量替代,支持类似主成分分析的后续分析。
- k-means 类型算法(kmeansvar)在处理大规模数据集时比 hclustvar 更快,但平均同质性较低。
- 自助抽样法成功用于稳定性评估,并指导了聚类数的选择,支持了结果的可靠解释。
- 该包通过简单插补处理缺失数据,但当缺失数据比例较高时性能可能下降,建议在预处理阶段使用专门的插补包。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。