[论文解读] Better Agnostic Clustering Via Relaxed Tensor Norms
该论文提出了一种新颖的凸松弛方法,用于 $k$-均值聚类,采用平方和范数——即注入张量范数的可计算近似——在弱矩条件下的鲁棒聚类。当低阶矩有界时,该方法可实现对聚类均值的忠实恢复,即使在对抗性异常值存在下也具有强保证,并解决了关于分离度为 $\Omega(k^\gamma)$(任意 $\gamma > 0$)的高斯混合学习的开放问题。该方法利用庞加莱不等式来上界矩张量范数,从而在时间 $d^{O(1/\gamma)}$ 内实现高效算法。
We develop a new family of convex relaxations for $k$-means clustering based on sum-of-squares norms, a relaxation of the injective tensor norm that is efficiently computable using the Sum-of-Squares algorithm. We give an algorithm based on this relaxation that recovers a faithful approximation to the true means in the given data whenever the low-degree moments of the points in each cluster have bounded sum-of-squares norms. We then prove a sharp upper bound on the sum-of-squares norms for moment tensors of any distribution that satisfies the \emph{Poincare inequality}. The Poincare inequality is a central inequality in probability theory, and a large class of distributions satisfy it including Gaussians, product distributions, strongly log-concave distributions, and any sum or uniformly continuous transformation of such distributions. As an immediate corollary, for any $γ> 0$, we obtain an efficient algorithm for learning the means of a mixture of $k$ arbitrary \Poincare distributions in $\mathbb{R}^d$ in time $d^{O(1/γ)}$ so long as the means have separation $Ω(k^γ)$. This in particular yields an algorithm for learning Gaussian mixtures with separation $Ω(k^γ)$, thus partially resolving an open problem of Regev and Vijayaraghavan \citet{regev2017learning}. Our algorithm works even in the outlier-robust setting where an $ε$ fraction of arbitrary outliers are added to the data, as long as the fraction of outliers is smaller than the smallest cluster. We, therefore, obtain results in the strong agnostic setting where, in addition to not knowing the distribution family, the data itself may be arbitrarily corrupted.
研究动机与目标
- 通过利用高阶矩的有界性而非参数假设,突破对抗性聚类中的二阶矩障碍。
- 在最小分布假设下(包括任意污染和异常值),设计一种计算高效的算法。
- 提供一个系统框架,以利用高阶矩信息进行聚类和鲁棒均值估计,而无需依赖特定分布结构。
- 通过证明在任意 $\gamma > 0$ 下,分离度为 $\Omega(k^\gamma)$ 时可实现高效恢复,解决高斯混合学习中的一个开放问题。
- 在庞加莱不等式下建立聚类的理论保证,该不等式涵盖高斯分布和对数凹测度等广泛分布类。
提出的方法
- 论文提出一种基于平方和范数的新凸松弛方法,该方法是矩张量注入张量范数的可计算近似。
- 通过有界矩张量的平方和范数,该方法确保即使仅能获得低阶矩信息,也能恢复聚类均值。
- 一种迭代聚类算法(算法3)利用矩张量范数的估计值,通过命题5.10的覆盖论证逐步优化候选均值。
- 通过基于 $\delta$-纯度和分离阈值的纯度条件,实现对异常值的鲁棒性,确保每个聚类候选主要由单一真实聚类的点构成。
- 理论保证基于庞加莱不等式推导,该不等式为满足庞加莱不等式的广泛分布类提供了矩张量平方和范数的紧上界。
- 设计了一种高效算法,其运行时间为 $d^{O(1/\gamma)}$,用于学习分离度为 $\Omega(k^\gamma)$ 的 $k$-分量庞加莱分布混合模型。
实验结果
研究问题
- RQ1我们能否通过利用高阶矩的有界性而非参数假设,突破对抗性聚类中的二阶矩障碍?
- RQ2如何设计一种注入张量范数的凸松弛方法,使其在计算上高效且在弱矩条件下对聚类有效?
- RQ3对于满足庞加莱不等式的分布,矩张量平方和范数的最紧上界是什么?
- RQ4我们能否实现对分离度为 $\Omega(k^\gamma)$(任意 $\gamma > 0$)的高斯混合聚类的高效聚类,从而解决文献中的一个开放问题?
- RQ5在保持对抗性异常值下强理论保证的前提下,如何确保在对抗性设定中对异常值的鲁棒性?
主要发现
- 该论文为满足庞加莱不等式的任意分布建立了矩张量平方和范数的紧上界,从而为广泛分布类提供了理论保证。
- 开发了一种高效算法,当均值分离度为 $\Omega(k^\gamma)$ 时,可在时间 $d^{O(1/\gamma)}$ 内学习 $k$ 个庞加莱分布混合的均值,解决了 Regev 和 Vijayaraghavan(2017)提出的开放问题。
- 该方法在估计聚类均值时实现 $\ell_2$ 误差 $\mathcal{O}(B/\alpha^{1/t})$,其中 $B$ 有界于矩张量范数,$\alpha$ 为最小聚类大小比例。
- 只要异常值比例小于最小聚类,鲁棒性即得到保证,误差界按 $\mathcal{O}(B/\alpha^{1/t})$ 缩放。
- 当分离常数 $C_{\mathrm{sep}}$ 足够大时,输出中的每个聚类均为 $\delta$-纯(主要来自单一真实聚类),从而可通过合并实现准确恢复。
- 理论分析确认,只要异常值比例低于总数据的 $\frac{1}{4}$,该算法即使在任意污染下,也能在 $\mathcal{O}(B/\alpha^{1/t})$ 误差范围内恢复所有真实聚类均值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。