QUICK REVIEW

[論文レビュー] Uniform Hypergraph Partitioning: Provable Tensor Methods and Sampling Techniques

Debarghya Ghoshdastidar, Ambedkar Dukkipati|arXiv (Cornell University)|Feb 21, 2016

Tensor decomposition and applications参考文献 74被引用数 31

ひとこと要約

本稿では、重み付き均一ハイパーグラフにおける、証明可能に一貫性のあるテンソルベースのハイパーグラフ分割アルゴリズムを提案する。密度の高いハイパーグラフにおける計算の非効率性を解消するために、スペクトル法とテンソルサンプリングを統合する。プラントハイパーグラフモデルの下で、回復精度に関する理論的保証を確立し、エッジ重みが疎で非一様であっても、サンプリングに基づく手法が高確率でほぼ最適な性能を達成することを示す。

ABSTRACT

In a series of recent works, we have generalised the consistency results in the stochastic block model literature to the case of uniform and non-uniform hypergraphs. The present paper continues the same line of study, where we focus on partitioning weighted uniform hypergraphs---a problem often encountered in computer vision. This work is motivated by two issues that arise when a hypergraph partitioning approach is used to tackle computer vision problems: (i) The uniform hypergraphs constructed for higher-order learning contain all edges, but most have negligible weights. Thus, the adjacency tensor is nearly sparse, and yet, not binary. (ii) A more serious concern is that standard partitioning algorithms need to compute all edge weights, which is computationally expensive for hypergraphs. This is usually resolved in practice by merging the clustering algorithm with a tensor sampling strategy---an approach that is yet to be analysed rigorously. We build on our earlier work on partitioning dense unweighted uniform hypergraphs (Ghoshdastidar and Dukkipati, ICML, 2015), and address the aforementioned issues by proposing provable and efficient partitioning algorithms. Our analysis justifies the empirical success of practical sampling techniques. We also complement our theoretical findings by elaborate empirical comparison of various hypergraph partitioning schemes.

研究の動機と目的

密度的でほぼ疎な重み付きハイパーグラフにおいて、標準的なハイパーグラフ分割アルゴリズムが全エッジ重みの計算を必要とすることに起因する計算非効率性を解消すること。
実践的に広く用いられているが、形式的根拠に欠ける、サンプリングに基づくテンソル法のハイパーグラフクラスタリングに関する厳密な理論的分析を提供すること。
未重み付きから重み付き均一ハイパーグラフへの一貫性結果の拡張を、一般化されたプラントモデルの下で行い、疎で非二値のエッジ重みに対してもロバストであることを保証すること。
サンプリングスキームの下で、高確率で成り立つクラスタリング誤差の理論的バインディングを確立すること。

提案手法

高次関連問題の緩和として、スペクトルクラスタリングと類似した形で再定式化された、テンソルトレース最大化に基づくスペクトルクラスタリングアルゴリズムを提案する。
エッジ重みに比例する非一様確率分布に従い、リプレースメントでハイパーエッジを選択するサンプリング戦略を導入し、計算コストを低減する。
プラントモデルの下で、サンプリングされたラプラシアンと真のラプラシアンとの乖離を、正規化された隣接テンソルとマトリクスベルシュタイン不等式を用いてバインドする。
ベルシュタインの不等式を用いて、次数行列とラプラシアンの集中バインディングを導出し、サンプリング下でのスペクトル法の安定性を保証する。
ハイパーグラフ構造とサンプリングの両方の確率測度を統合的に扱い、スペクトルクラスタリング性能の高確率誤差バインディングを導出する。
スペクトルギャップと固有値の摂動を分析し、サンプリングされたラプラシアンの主固有ベクトルが真のクラスタ構造を高確率で近似できることを保証する。

実験結果

リサーチクエスチョン

RQ1重み付きプラントモデルの下で、サンプリングに基づくテンソル法によるハイパーグラフ分割は、一貫性のあるクラスタリングを達成できるか？
RQ2サンプリング戦略は、真のハイパーグラフラプラシアンのスペクトル近似にどのように影響するか？
RQ3ハイパーグラフの一部のハイパーエッジしか観測されない場合に、クラスタリング誤差に対してどのような理論的保証を提供できるか？
RQ4サンプリング誤差のバインディングは、ハイパーグラフのサイズ、エッジ重み分布、最小次数にどのように依存するか？
RQ5理論的結果は、実践的なハイパーグラフ分割パイプラインにおけるサンプリングの経験的成功をどの程度正当化できるか？

主な発見

提案されたサンプリングベースのスペクトルアルゴリズムは、$ N $ をサンプリングされたハイパーエッジ数として、高確率でクラスタリング誤差が $ O\left(\sqrt{\frac{\ln n}{N}} \left(1 + \frac{\beta (m-1)!}{\mathcal{D}_{\min}} \right)\right) $ に減少することを示す。
サンプリングされたラプラシアンと真のラプラシアンとの乖離は、確率 $ 1 - o(1) $ で $ O\left(\sqrt{\frac{\ln n}{N}} \left(1 + \frac{2\beta (m-1)!}{\mathcal{D}_{\min}} \right)\right) $ にバインドされる。
この手法により、サンプリングされたラプラシアンの主固有ベクトルが真のクラスタインジケータに高確率で近くなることが保証され、一貫性のあるクラスタリングが可能になる。
理論的分析により、エッジ重みが疎で非一様であっても、性能の著しい劣化が生じないことが確認され、実践的利用の正当化がなされる。
エッジ重み分布およびハイパーグラフ構造に対する最小限の仮定の下でバインディングが成り立つため、実世界のデータ特性にロバストである。
実験的評価により、サンプリングベースの手法が、実行時間において完全計算を上回りながら、同等のクラスタリング精度を維持することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。