[论文解读] Neural network-based clustering using pairwise constraints
本文提出了一种端到端的神经网络框架,仅使用成对约束(相似/不相似对)作为弱监督,联合学习特征嵌入并执行聚类。通过采用对比KL散度损失,模型可直接输出聚类分配,而无需显式定义聚类中心或预设的距离度量,在聚类性能上优于k-means,且与全标签分类方法相比表现相当,即使聚类数量被过度指定,依然表现优异。
This paper presents a neural network-based end-to-end clustering framework. We design a novel strategy to utilize the contrastive criteria for pushing data-forming clusters directly from raw data, in addition to learning a feature embedding suitable for such clustering. The network is trained with weak labels, specifically partial pairwise relationships between data instances. The cluster assignments and their probabilities are then obtained at the output layer by feed-forwarding the data. The framework has the interesting characteristic that no cluster centers need to be explicitly specified, thus the resulting cluster distribution is purely data-driven and no distance metrics need to be predefined. The experiments show that the proposed approach beats the conventional two-stage method (feature embedding with k-means) by a significant margin. It also compares favorably to the performance of the standard cross entropy loss for classification. Robustness analysis also shows that the method is largely insensitive to the number of clusters. Specifically, we show that the number of dominant clusters is close to the true number of clusters even when a large k is used for clustering.
研究动机与目标
- 开发一种端到端的深度学习框架,联合学习特征表示并执行聚类,而无需依赖传统的两阶段流程。
- 通过网络参数实现完全数据驱动的聚类分配,消除对显式定义的聚类中心和预设距离度量的依赖。
- 利用成对约束(相似/不相似对)作为弱监督形式来训练网络,实现半监督和无监督聚类。
- 展示对指定聚类数量的鲁棒性,表明即使k被过度指定,网络仍能自然识别出真实的主要聚类数量。
- 将基于对比损失的聚类方法与标准交叉熵分类损失进行比较,使用全标签评估性能上限。
提出的方法
- 该框架采用深度神经网络,结合对比KL散度损失函数,最小化相似对之间预测聚类概率的统计距离,同时最大化不相似对之间的距离。
- 网络仅使用成对约束作为弱标签进行端到端训练,这些约束可源自空间/时间关系、邻域假设或众包标注。
- 聚类分配及其概率通过前向传播直接从输出层获得,无需k-means等后处理步骤。
- 该方法避免显式聚类中心和距离度量;相反,聚类分配由网络学习到的非线性变换和参数隐式生成。
- 该架构模块化且灵活,可与各种网络架构、层类型和优化策略集成。
- 为与分类方法比较,输出节点数量设为真实类别数,通过最优分配分配聚类标签,以实现直接的准确率比较。
实验结果
研究问题
- RQ1是否可以仅使用成对约束,无需两阶段流程,端到端训练深度神经网络,直接从原始数据执行聚类?
- RQ2当拥有全标签时,所提出的对比损失函数与标准交叉熵损失在聚类准确率上的表现如何比较?
- RQ3该方法对聚类数量过度指定(k)的鲁棒性如何?是否能自然识别出真实存在的聚类数量?
- RQ4当仅使用成对关系而非全类别标签时,该框架能否实现与监督分类相当的性能?
- RQ5在相同的弱监督条件下,与传统两阶段方法(如Siamese网络 + k-means)相比,该方法表现如何?
主要发现
- 所提出的方法在聚类性能上显著优于传统的两阶段方法(即Siamese网络提取特征后接k-means聚类)。
- 当使用来自真实标签的全成对约束进行训练时,基于对比损失的聚类方法在MNIST和CIFAR-10等较大数据集上,准确率略高或与交叉熵分类方法相当。
- 在MNIST数据集上,每类仅使用6个样本时,聚类方法达到79.4%的测试准确率,而分类方法为82.4%,尽管训练集较小,但性能依然强劲。
- 该方法对过度指定的k表现出强鲁棒性:即使k较大,网络仍会将大多数数据分配到约10个主要聚类中,与真实聚类数高度一致。
- 在基于k-means的基线方法中,增加k常导致一个类别被拆分为多个小聚类,而所提方法通过学习更一致的聚类结构避免了此问题。
- 即使训练样本极少(如CIFAR-10中每类仅5个样本),该框架依然有效,基于对比损失的准确率达到22.0%,表明其在低数据场景下的可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。