QUICK REVIEW

[論文レビュー] Better Agnostic Clustering Via Relaxed Tensor Norms

Pravesh K. Kothari, Jacob Steinhardt|ArXiv.org|Nov 20, 2017

Tensor decomposition and applications参考文献 25被引用数 27

ひとこと要約

本稿は、和の平方ノルム（sum-of-squares norms）に基づく新しい凸緩和を導入し、$k$-meansクラスタリングのための注入テンソルノルムの扱いやすい近似として用いる。これにより、弱いモーメント条件のもとでロバストなクラスタリングが可能になる。低次のモーメントが有界である場合に、クラスタ平均の忠実な回復が達成され、敵対的外れ値に対しても強い保証が得られる。また、任意の $\gamma > 0$ に対して $\Omega(k^\gamma)$ の分離度をもつガウス混合分布の学習に関する未解決問題を解消する。本手法はポアンカレ不等式を用いてモーメントテンソルノルムの上界を評価し、時間 $d^{O(1/\gamma)}$ で効率的なアルゴリズムを実現する。

ABSTRACT

We develop a new family of convex relaxations for $k$-means clustering based on sum-of-squares norms, a relaxation of the injective tensor norm that is efficiently computable using the Sum-of-Squares algorithm. We give an algorithm based on this relaxation that recovers a faithful approximation to the true means in the given data whenever the low-degree moments of the points in each cluster have bounded sum-of-squares norms. We then prove a sharp upper bound on the sum-of-squares norms for moment tensors of any distribution that satisfies the \emph{Poincare inequality}. The Poincare inequality is a central inequality in probability theory, and a large class of distributions satisfy it including Gaussians, product distributions, strongly log-concave distributions, and any sum or uniformly continuous transformation of such distributions. As an immediate corollary, for any $γ> 0$, we obtain an efficient algorithm for learning the means of a mixture of $k$ arbitrary \Poincare distributions in $\mathbb{R}^d$ in time $d^{O(1/γ)}$ so long as the means have separation $Ω(k^γ)$. This in particular yields an algorithm for learning Gaussian mixtures with separation $Ω(k^γ)$, thus partially resolving an open problem of Regev and Vijayaraghavan \citet{regev2017learning}. Our algorithm works even in the outlier-robust setting where an $ε$ fraction of arbitrary outliers are added to the data, as long as the fraction of outliers is smaller than the smallest cluster. We, therefore, obtain results in the strong agnostic setting where, in addition to not knowing the distribution family, the data itself may be arbitrarily corrupted.

研究の動機と目的

高い次元のモーメントの有界性を仮定することで、パrametricな仮定に依存しない第二モーメントの壁を打ち破ること。
任意の混合や外れ値を含む状況でも動作する計算効率の良いアルゴリズムの開発。
特定の分布構造に依存せずに、クラスタリングおよびロバストな平均推定における高次モーメント情報の利用を体系的に行うフレームワークの構築。
任意の $\gamma > 0$ に対して $\Omega(k^\gamma)$ の分離度をもつガウス混合分布の学習において、効率的な回復が可能であることを示し、文献における未解決問題を解消すること。
ガウス分布や対数凹型測度を含む広範な分布クラスをカバーするポアンカレ不等式に基づく理論的保証の確立。

提案手法

本稿は、モーメントテンソルの注入テンソルノルムの扱いやすい近似として、和の平方ノルムに基づく新しい凸緩和を導入する。
モーメントテンソルの和の平方ノルムを有界化することで、低次のモーメント情報しか利用できない状況でも、クラスタ平均の回復が保証される。
反復的クラスタリングアルゴリズム（アルゴリズム3）は、モーメントテンソルノルムの推定値を用いて、候補となる平均を段階的に改善する。これは、命題5.10に基づく被覆議論を活用する。
外れ値に対するロバスト性は、各クラスタ候補が主に1つの真のクラスタからの点で構成されることを保証することで達成される。これは $\delta$-純度と分離閾値に基づく純度条件を用いる。
理論的保証は、広範な分布クラスに対してモーメントテンソルの和の平方ノルムの鋭い上界を与えるポアンカレ不等式を用いて導出される。
分離度 $\Omega(k^\gamma)$ をもつポアンカレ分布の $k$ 成分混合分布を学習するための効率的なアルゴリズムが設計され、実行時間は $d^{O(1/\gamma)}$ である。

実験結果

リサーチクエスチョン

RQ1高次モーメントの有界性を仮定することで、パrametricな仮定に依存しない第二モーメントの壁を打ち破ることは可能か？
RQ2計算的に効率的かつ弱いモーメント条件のもとでクラスタリングに有効な、注入テンソルノルムの凸緩和をどのように設計できるか？
RQ3ポアンカレ不等式を満たす分布に対して、モーメントテンソルの和の平方ノルムの最も鋭い上界は何か？
RQ4任意の $\gamma > 0$ に対して $\Omega(k^\gamma)$ の分離度をもつガウス混合分布のクラスタリングを、効率的に実現できるか。これは文献における未解決問題を解消する。
RQ5任意の汚染が存在する状況でも、理論的保証を維持しつつ、敵対的外れ値に対してロバストであるようにすることは可能か？

主な発見

本稿は、ポアンカレ不等式を満たす任意の分布に対して、モーメントテンソルの和の平方ノルムの鋭い上界を確立し、広範な分布クラスに対する理論的保証を可能にする。
分離度が $\Omega(k^\gamma)$ である $k$ 個のポアンカレ分布の混合分布の平均を、時間 $d^{O(1/\gamma)}$ で学習する効率的アルゴリズムが開発され、RegevとVijayaraghavan（2017）が提起した未解決問題を解消する。
クラスタ平均の推定における $\ell_2$ ノルム誤差は $\mathcal{O}(B/\alpha^{1/t})$ である。ここで $B$ はモーメントテンソルノルムの上界、$\alpha$ は最小クラスタサイズの割合を表す。
外れ値の割合が最小クラスタのサイズ未満であれば、ロバスト性が保証され、誤差境界は $\mathcal{O}(B/\alpha^{1/t})$ に比例する。
分離定数 $C_{\mathrm{sep}}$ が十分に大きい場合、出力の各クラスタは $\delta$-純度（主に1つの真のクラスタからの点で構成）を満たし、マージによって正確な回復が可能になる。
理論的解析により、外れ値の割合が全データの $\frac{1}{4}$ 未満であれば、任意の汚染が存在する状況でも、真のクラスタ平均が $\mathcal{O}(B/\alpha^{1/t})$ の誤差内に回復されることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。