QUICK REVIEW

[論文レビュー] Clustering Signed Networks with the Geometric Mean of Laplacians

Pedro Mercado, Francesco Tudisco|arXiv (Cornell University)|Jan 3, 2017

Complex Network Analysis Techniques参考文献 20被引用数 25

ひとこと要約

本稿では、正と負のグラフラプラシアンの幾何平均を用いた、符号付きネットワーク向けの新しいスペクトルクラスタリング手法を提案する。この手法は、正または負のネットワークの一方がノイズフリーであっても、真のコミュニティをよりよく回復できるため、従来の算術平均に基づく手法を凌駃する。逆累乗法と拡張されたクリロフ部分空間を用いることで、行列を明示的に構築せずに効率的な計算が可能となり、実世界および合成された符号付きネットワークにおいてもロバストなクラスタリングを実現する。

ABSTRACT

Signed networks allow to model positive and negative relationships. We analyze existing extensions of spectral clustering to signed networks. It turns out that existing approaches do not recover the ground truth clustering in several situations where either the positive or the negative network structures contain no noise. Our analysis shows that these problems arise as existing approaches take some form of arithmetic mean of the Laplacians of the positive and negative part. As a solution we propose to use the geometric mean of the Laplacians of positive and negative part and show that it outperforms the existing approaches. While the geometric mean of matrices is computationally expensive, we show that eigenvectors of the geometric mean can be computed efficiently, leading to a numerical scheme for sparse matrices which is of independent interest.

研究の動機と目的

符号付きネットワークにおける既存のスペクトルクラスタリング手法が、特に正または負のグラフの一方がノイズフリーである場合に失敗する問題に対処すること。
確率的ブロックモデルにおいて、算術平均に基づくラプラシアン拡張が真のクラスタを回復できない理由を特定すること。
正と負のラプラシアンの幾何平均に基づく、より良いクラスタ回復を保証する新しいスペクトルクラスタリングフレームワークを開発すること。
幾何平均ラプラシアンの主要固有ベクトルを、行列を明示的に形成せずに効率的に計算する数値アルゴリズムを設計すること。
実世界の符号付きネットワークおよびベンチマークデータセット上で、本手法を検証し、優れたクラスタリング性能を示すこと。

提案手法

本手法は、正と負のグラフラプラシアンの幾何平均として定義される新しい符号付きグラフラプラシアン $ L_{GM} = L^+ \# L^- $ を導入する。このラプラシアンは半正定値であり、バランスの取れたコミュニティ構造をより正確に捉える。
逆累乗法と拡張されたクリロフ部分空間技術を組み合わせることで、$ L_{GM} $ の主要固有ベクトルを、幾何平均行列を明示的に構築せずに計算する。
行列の幾何平均を直接計算するコストを回避するため、$ L^+ $ と $ L^- $ に含まれる線形方程式系を解くことで、スパースな符号付きネットワークへのスケーラビリティを実現する。
最小固有値を標的にするため、シフト・インバース戦略を用い、埋め込みにおけるクラスタ構造に対応する。
標準的なスペクトルクラスタリングパイプラインに統合する：$ L_{GM} $ の固有ベクトルを計算し、ノードを $ \mathbb{R}^k $ に埋め込み、k-均値法を適用する。
フレームワークはMATLABで実装され、実世界およびUCIデータセットでテストされ、$ L_{SN}, L_{BN}, L_{AM} $ と比較された。

実験結果

リサーチクエスチョン

RQ1なぜ既存の符号付きネットワーク向けスペクトルクラスタリング手法は、ノイズフリーな状況下でも真のクラスタを回復できないのか？
RQ2正と負のグラフラプラシアンの幾何平均は、算術平均に基づく代替手法よりも、よりロバストかつ正確なスペクトル埋め込みを提供できるか？
RQ3大規模なスパースな符号付きネットワークに対して、幾何平均ラプラシアンの主要固有ベクトルを計算することが計算的に可能か？
RQ4実世界の符号付きネットワークにおいて、幾何平均ラプラシアンは既存の手法に比べてどのように性能を発揮するか？
RQ5正または負のネットワークの一方に顕著なノイズが存在する場合、幾何平均アプローチは依然としてロバストか？

主な発見

確率的ブロックモデルにおいて、$ L_{GM} $ は、$ G^+ $ もしくは $ G^- $ の一方が完全に構造的であっても、真のクラスタを正しく回復する。これに対して、算術平均に基づく手法はそのような状況でも失敗する。
Wikipediaの管理者選挙データセットでは、$ L_{GM} $ が唯一のクラスタ構造を正しく同定した。一方、$ L_{AM}, L_{BN}, L_{SN} $ はコミュニティ構造を検出できなかった。
UCIデータセットでは、全テストされた $ k^+, k^- $ 組み合わせにおいて、59.4% から 87.5% のケースで $ L_{GM} $ が最良または厳密に最良のクラスタリング誤差を達成し、他の手法を著しく上回った。
負のグラフにノイズが存在する場合でも、$ L_{GM} $ は低誤差を維持する。一方、$ L_{SN} $ と $ L_{BN} $ は高い誤差を示した。
逆累乗法と拡張クリロフ部分空間を用いた本手法の計算時間は、標準的なスペクトルクラスタリングと同程度であり、最大70,000ノードのグラフに対しても定数倍の差異に留まる。
$ L_{GM} $ を明示的に計算しないことで、メモリオーバーフローを回避し、大規模なスパースな符号付きネットワークへのスケーラビリティを実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。