QUICK REVIEW

[论文解读] Large Scale Correlation Clustering Optimization

Shai Bagon, Meirav Galun|arXiv (Cornell University)|Dec 13, 2011

Bayesian Methods and Mixture Models参考文献 21被引用 56

一句话总结

本文提出了一种大规模相关聚类优化算法，通过概率解释和与Potts模型的类比，实现了自动模型选择，并可扩展至超过10万个变量。该方法在无监督人脸识别和交互式多目标分割任务中达到最先进性能，通过联合优化聚类分配并估计聚类数量，无需预先指定聚类数。

ABSTRACT

Clustering is a fundamental task in unsupervised learning. The focus of this paper is the Correlation Clustering functional which combines positive and negative affinities between the data points. The contribution of this paper is two fold: (i) Provide a theoretic analysis of the functional. (ii) New optimization algorithms which can cope with large scale problems (>100K variables) that are infeasible using existing methods. Our theoretic analysis provides a probabilistic generative interpretation for the functional, and justifies its intrinsic "model-selection" capability. Furthermore, we draw an analogy between optimizing this functional and the well known Potts energy minimization. This analogy allows us to suggest several new optimization algorithms, which exploit the intrinsic "model-selection" capability of the functional to automatically recover the underlying number of clusters. We compare our algorithms to existing methods on both synthetic and real data. In addition we suggest two new applications that are made possible by our algorithms: unsupervised face identification and interactive multi-object segmentation by rough boundary delineation.

研究动机与目标

为相关聚类函数提供严格的概率生成解释，证明其内在的模型选择能力。
开发可处理大规模问题（>10万变量）的可扩展优化算法，而现有凸松弛方法对此类问题无能为力。
利用相关聚类与Potts模型之间的类比，设计高效的离散优化算法，自动恢复聚类数量。
在计算机视觉领域实现新应用，包括无监督人脸识别和从粗略边界进行交互式多目标分割。

提出的方法

本文推导出一种生成式概率模型，其中成对相似度从与聚类相关的分布中抽取，从而证明相关聚类函数是该模型下的最大后验估计。
建立了相关聚类函数与离散Potts能量之间的类比，使先进离散优化技术得以应用。
作者提出了新型离散优化算法（如自适应标签ICM和Swap-and-Explore），可处理非子模能量、未知聚类数量及缺乏一元项的问题。
这些算法利用信念传播和局部搜索策略，高效探索解空间，同时保持模型选择特性。
通过学习的马氏距离和对数似然比变换推导亲和度，以表示成对相似度的置信度。
通过在大规模数据上直接优化相关聚类函数，将鲁棒聚类与自动聚类数估计相结合。

实验结果

研究问题

RQ1相关聚类函数如何进行概率解释？这对其模型选择能力有何含义？
RQ2相关聚类与Potts模型之间存在何种关系？该类比如何改进优化？
RQ3离散优化技术能否被调整以处理CC函数在大规模下的非子模性、非凸性和无约束性？
RQ4所提出的算法能否在无需预先指定的情况下自动恢复真实的聚类数量？与现有方法相比表现如何？
RQ5当相关聚类在大规模下结合自动模型选择进行优化时，哪些新的计算机视觉应用成为可能？

主要发现

概率解释证明了相关聚类的内在模型选择特性：在所假设的生成模型下，该方法自然倾向于选择聚类数更少的解。
与Potts模型的类比使高效离散优化算法的设计成为可能，可扩展至超过10万个变量，克服了先前凸松弛方法的局限性。
所提出的算法，特别是自适应标签ICM和Swap-and-Explore，在多个测试集（k=15至35）的无监督人脸识别实验中，实现了高聚类纯度并准确恢复了真实人数。
在无监督人脸识别中，该方法成功识别出正确的个体数量（k′ ≈ k），且聚类纯度显著优于连通分量法和基于谱间隙的方法。
该算法使新应用成为可能，如从粗略边界进行交互式多目标分割，以及对未见个体进行无监督人脸聚类。
运行时间评估表明，自适应标签ICM在速度上显著优于其他方法，同时保持了相当的准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。