QUICK REVIEW

[论文解读] Robust Bregman Clustering

Aurélie Fischer, Clément Levrard|arXiv (Cornell University)|Dec 11, 2018

Bayesian Methods and Mixture Models参考文献 35被引用 1

一句话总结

本文提出了一种基于截断的鲁棒Bregman聚类方法，以处理数据中的对抗性噪声，实现了次高斯收敛速率和有限样本崩溃点鲁棒性。该方法提出了一种截断经验畸变最小化器，并结合Lloyd型算法与数据驱动的参数选择，展示了在重尾分布和受损数据条件下，理论保证强且实证性能优异的特性。

ABSTRACT

Using a trimming approach, we investigate a k-means type method based on Bregman divergences for clustering data possibly corrupted with clutter noise. The main interest of Bregman divergences is that the standard Lloyd algorithm adapts to these distortion measures, and they are well-suited for clustering data sampled according to mixture models from exponential families. We prove that there exists an optimal codebook, and that an empirically optimal codebook converges a.s. to an optimal codebook in the distortion sense. Moreover, we obtain the sub-Gaussian rate of convergence for k-means 1 $\sqrt$ n under mild tail assumptions. Also, we derive a Lloyd-type algorithm with a trimming parameter that can be selected from data according to some heuristic, and present some experimental results.

研究动机与目标

为解决Bregman聚类对数据中对抗性噪声的高敏感性问题。
开发一种理论基础坚实的鲁棒聚类方法，使其在重尾或受损数据条件下仍能保持性能。
在较弱的矩假设下，建立截断估计量的收敛速率与崩溃点性质。
提出一种实用算法，可自动选择截断水平与聚类数量。
在模拟与真实数据集上，于噪声环境下对方法进行实证验证。

提出的方法

通过排除与聚类中心Bregman散度最高的h比例数据点，提出一种截断经验畸变最小化器，记为ˆcn,h。
定义截断畸变函数Rn,h(c) = (1/n) ∑ min_j dφ(Xi, cj) · τh(c)(Xi)，其中τh为基于到中心距离的截断指示函数。
提出一种改进的Lloyd型算法，通过固定截断水平h迭代更新聚类中心并剔除异常值。
基于畸变与稳定性准则，开发一种启发式方法，用于数据驱动地选择聚类数k与截断水平h。
利用经验过程理论建立理论收敛性，基于有界方差与次高斯尾部假设推导偏差界。
通过有限样本崩溃点（FBP）分析量化鲁棒性，表明该方法可容忍正比例的对抗性污染。

实验结果

研究问题

RQ1Bregman聚类能否在保持收敛速率的同时对对抗性噪声具有鲁棒性？
RQ2在较弱矩条件下，截断Bregman聚类估计量的理论收敛速率为何？
RQ3从有限样本崩溃点的角度看，截断估计量在崩溃前可容忍多少污染？
RQ4在实践中，一种数据驱动的启发式方法能否可靠地同时选择聚类数与截断水平？
RQ5与现有鲁棒聚类方法（如截断k-means）相比，所提方法在畸变与鲁棒性方面表现如何？

主要发现

在有界方差假设下，截断Bregman聚类估计量ˆcn,h对过剩畸变的收敛速率为次高斯速率O(1/√n)。
该方法对正比例对抗性污染具有鲁棒性，其有限样本崩溃点下界由截断水平与聚类结构共同决定。
理论分析证实，随着样本量增加，截断估计量几乎必然收敛至真实截断最优码书c∗h。
数值实验表明，该方法在噪声与重尾条件下，优于截断k-means与tclust方法，在模拟与真实数据集上表现更优。
所提出的k与h选择启发式方法无需预先知晓噪声水平，即可实现稳定且准确的聚类结果。
通过经验过程不等式建立了畸变过剩风险的理论界，其显式依赖于样本大小与截断水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。