QUICK REVIEW

[論文レビュー] Clustering Partially Observed Graphs via Convex Optimization

Yudong Chen, Ali Jalali|arXiv (Cornell University)|Apr 25, 2011

Sparse and Compressive Sensing Techniques参考文献 44被引用数 97

ひとこと要約

本稿は、クラスタ内での欠落エッジとクラスタ間の存在エッジという不一致を最小化することで、部分的に観測された重みなしグラフのクラスタリングのための凸最適化フレームワークを提案する。問題は部分的観測からの低ランクおよびスパース行列分解に還元され、クラスタサイズ、エッジ密度、観測確率に関する緩い条件下で正確なクラスタ回復を達成する。ステochastic block modelにおいて、対数要因を除いて最適性を達成する。

ABSTRACT

This paper considers the problem of clustering a partially observed unweighted graph---i.e., one where for some node pairs we know there is an edge between them, for some others we know there is no edge, and for the remaining we do not know whether or not there is an edge. We want to organize the nodes into disjoint clusters so that there is relatively dense (observed) connectivity within clusters, and sparse across clusters. We take a novel yet natural approach to this problem, by focusing on finding the clustering that minimizes the number of "disagreements"---i.e., the sum of the number of (observed) missing edges within clusters, and (observed) present edges across clusters. Our algorithm uses convex optimization; its basis is a reduction of disagreement minimization to the problem of recovering an (unknown) low-rank matrix and an (unknown) sparse matrix from their partially observed sum. We evaluate the performance of our algorithm on the classical Planted Partition/Stochastic Block Model. Our main theorem provides sufficient conditions for the success of our algorithm as a function of the minimum cluster size, edge density and observation probability; in particular, the results characterize the tradeoff between the observation probability and the edge density gap. When there are a constant number of clusters of equal size, our results are optimal up to logarithmic factors.

研究の動機と目的

一部のエッジが存在すること、一部が存在しないこと、他のエッジが観測されていないという状況下でのグラフのクラスタリングという課題に対処すること。
クラスタ数の事前知識を必要とせず、不一致を最小化するクラスタリング手法を開発すること。
最適なクラスタリングを返すか、失敗を検出するという理論的に正しいアルゴリズムを提供すること。劣悪な解を返さない。
部分的観測下でのプラント・パーティション／ステーショナリック・ブロックモデルにおける正確な回復が可能となる理論的条件を確立すること。
成功したクラスタリングのための観測確率とエッジ密度ギャップのトレードオフを特定すること。

提案手法

観測された隣接行列を、理想のクラスタ構造を表す低ランク行列と、不一致を表すスパース行列の和としてモデル化する。
部分的観測エントリ上で核ノルムとl1ノルムの最小化により、凸最適化を用いて低ランクおよびスパース成分を回復する。
アルゴリズムは行列分解問題を解く：P_Ω(A) = P_Ω(L + S) を満たすように、‖L‖_* + λ‖S‖_1 を最小化する。ここでLは低ランク、Sはスパースである。
不一致最小化を部分的観測下でのロバスト行列分解に還元する、新しい還元法を用いる。
理論的分析は、濃縮不等式と行列摂動理論に依拠し、残差項の無限大ノルムをバインドする。
観測確率とエッジ密度ギャップがクラスタサイズおよびグラフサイズに対して一定の閾値を満たす場合、回復が保証される。

実験結果

リサーチクエスチョン

RQ1クラスタ数を事前に指定せずに、部分的観測されたグラフの正確なクラスタリングを凸最適化フレームワークで達成できるか？
RQ2ステーショナリック・ブロックモデルにおける成功した回復のための十分条件として、観測確率、エッジ密度ギャップ、クラスタサイズにどのような条件が必要か？
RQ3既存の手法と比較して、部分的観測下における理論的保証と性能の面で、本手法はどのように差をつけるか？
RQ4最悪ケースにおいて、本手法がどの程度まで対数要因を除いて最適な回復を達成できるか？
RQ5理論的正しさを保証する凸緩和により、不一致最小化目的関数は効果的に解けるか？

主な発見

観測確率とエッジ密度ギャップが p₀ ≥ C log n / K_min を満たす場合、提案アルゴリズムは正確なクラスタ回復を保証する。ここでK_minは最小クラスタサイズである。
等しいサイズの定数クラスタに対して、本手法は回復閾値において対数要因を除いて最適性を達成する。
理論的分析により、観測確率p₀がエッジ密度ギャップおよびクラスタサイズに対して十分に大きい場合、本アルゴリズムは高確率で成功することが示された。
一般行列分解結果に比べ、クラスタリング問題に特化したより強い保証を提供する。
回復閾値はO(log n / K_min)のスケーリングを示し、対数要因を除いて既知の情報理論的限界と一致する。
データが理論的条件を満たさない場合にのみ失敗が生じるため、劣悪な解が返されることはない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。