[论文解读] Balanced k-Means and Min-Cut Clustering
本文提出了一种平衡 k-均值聚类与平衡最小割聚类算法,通过使用独占 lasso 正则化来强制实现均衡的簇大小,确保数据点在簇之间更公平地分布。通过最小化独占 lasso 惩罚项,与最先进方法相比,该方法在基准数据集上的聚类准确率和标准化互信息(NMI)均显著提升。
Clustering is an effective technique in data mining to generate groups that are the matter of interest. Among various clustering approaches, the family of k-means algorithms and min-cut algorithms gain most popularity due to their simplicity and efficacy. The classical k-means algorithm partitions a number of data points into several subsets by iteratively updating the clustering centers and the associated data points. By contrast, a weighted undirected graph is constructed in min-cut algorithms which partition the vertices of the graph into two sets. However, existing clustering algorithms tend to cluster minority of data points into a subset, which shall be avoided when the target dataset is balanced. To achieve more accurate clustering for balanced dataset, we propose to leverage exclusive lasso on k-means and min-cut to regulate the balance degree of the clustering results. By optimizing our objective functions that build atop the exclusive lasso, we can make the clustering result as much balanced as possible. Extensive experiments on several large-scale datasets validate the advantage of the proposed algorithms compared to the state-of-the-art clustering algorithms.
研究动机与目标
- 解决传统 k-均值与最小割聚类在数据均匀分布时产生不平衡簇分配的局限性。
- 在聚类结果中显式强制实现簇大小均衡,尤其适用于簇大小应近似相等的数据集。
- 将独占 lasso 正则化整合到 k-均值与最小割框架中,以诱导簇之间对数据点的竞争。
- 提出一种迭代优化方法,用于求解由独占 lasso 正则化引起的非光滑目标函数。
- 通过实证验证所提出的平衡聚类算法在性能上优于现有最先进方法。
提出的方法
- 将独占 lasso 惩罚项引入 k-均值目标函数,通过惩罚不均衡的簇大小来促进簇分配的均衡性。
- 在最小割聚类中,将独占 lasso 应用于簇分配向量,以促进图顶点的均衡分割。
- 提出一种新型迭代优化算法,以处理涉及独占 lasso 的非光滑目标函数。
- 优化过程在更新簇分配与簇中心(k-均值中)或更新分割向量(最小割中)之间交替进行,同时由独占 lasso 项调控平衡性。
- 参数 γ 控制独占 lasso 惩罚的强度,实验表明其在 [10⁻², 10²] 范围内性能最优。
- 该框架可应用于 k-均值与最小割,使这两种经典聚类方法均能生成更均衡的结果。
实验结果
研究问题
- RQ1独占 lasso 正则化能否有效在 k-均值聚类中强制实现均衡的簇大小?
- RQ2独占 lasso 能否成功适配到最小割聚类中,以生成更均衡的分割?
- RQ3所提出的平衡 k-均值与最小割算法在准确率与 NMI 上相较于最先进聚类方法的性能如何?
- RQ4所提出算法对正则化参数 γ 的敏感性如何?
- RQ5同时整合判别性信息与平衡约束,是否能提升在平衡数据集上的聚类性能?
主要发现
- 所提出的平衡 k-均值算法在所有测试数据集上,其聚类准确率与 NMI 均持续优于经典 k-均值、DisCluster、DisKmeans、AKM、HKM 及其他最先进方法。
- 平衡最小割聚类在所有九个基准数据集上,作为基于图的聚类方法表现最佳,显著优于 Min-Cut、MinMax Cut、Ratio Cut、Normalized Cut 与 Balanced Min-Cut。
- 参数 γ 对性能有显著影响,且在平衡 k-均值与平衡最小割中,最优结果始终出现在 [10⁻², 10²] 范围内。
- 独占 lasso 有效诱导簇之间的竞争,从而实现更均衡的簇大小与更优的聚类质量。
- 大量实验证实,所提算法在多样化的大规模数据集上具有鲁棒性,且持续表现更优,验证了平衡约束的有效性。
- 迭代优化方法成功处理了非光滑目标函数,实现了向高质量平衡聚类的收敛。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。