QUICK REVIEW

[論文レビュー] Co-clustering for directed graphs: the Stochastic co-Blockmodel and spectral algorithm Di-Sim

Karl Rohe, Tai Qin|arXiv (Cornell University)|Apr 10, 2012

Complex Network Analysis Techniques参考文献 61被引用数 29

ひとこと要約

本稿では、ノードの送信および受信パターンを別々にモデル化することで非対称な役割を同定する、有向グラフ向けのスペクトル共同クラスタリング手法Di-Simを提案する。度数補正付き確率的共同ブロックモデルを導入し、正則化と射影を用いてスパースかつ不均一な次数条件のもとで弱い一貫性を証明することで、Enron、政治的ブログ、C. elegansなどの実世界のネットワークにおける持続的である送信者・受信者非対称性の検出を可能にする。

ABSTRACT

Directed graphs have asymmetric connections, yet the current graph clustering methodologies cannot identify the potentially global structure of these asymmetries. We give a spectral algorithm called di-sim that builds on a dual measure of similarity that correspond to how a node (i) sends and (ii) receives edges. Using di-sim, we analyze the global asymmetries in the networks of Enron emails, political blogs, and the c elegans neural connectome. In each example, a small subset of nodes have persistent asymmetries; these nodes send edges with one cluster, but receive edges with another cluster. Previous approaches would have assigned these asymmetric nodes to only one cluster, failing to identify their sending/receiving asymmetries. Regularization and "projection" are two steps of di-sim that are essential for spectral clustering algorithms to work in practice. The theoretical results show that these steps make the algorithm weakly consistent under the degree corrected Stochastic co-Blockmodel, a model that generalizes the Stochastic Blockmodel to allow for both (i) degree heterogeneity and (ii) the global asymmetries that we intend to detect. The theoretical results make no assumptions on the smallest degree nodes. Instead, the theorem requires that the average degree grows sufficiently fast and that the weak consistency only applies to the subset of the nodes with sufficiently large leverage scores. The results results also apply to bipartite graphs.

研究の動機と目的

既存のクラスタリング手法が有向ネットワークにおけるグローバルな非対称性を捉えきれていないという限界に対処すること。
スパースかつ不均一な有向グラフを扱える計算的に実行可能なスペクトルアルゴリズムを開発すること。
共同クラスタリングを通じて確率的同等な送信者と受信者を区別する形で、確率的ブロックモデルを有向ネットワークに拡張すること。
最小ノード次数を要件としないクラスタリングの一貫性に関する理論的保証を提供すること。
本手法が、Enronメールや神経接続マップなど、既知の構造的非対称性を示す実世界の有向ネットワークにおいて、持続的非対称性を明らかにできることを示すこと。

提案手法

Di-Simは、ノードの送信および受信パターンに基づく二重類似度測度を用い、有向グラフの共同クラスタリングフレームワークを構築する。
スパースで非対称な隣接行列に対して、パrameter τ を用いた正則化を適用し、特異値分解の安定化を図る。
次数の不均一性下での推定を改善するために、左および右の特異ベクトルを単位球面上に射影する。
正規化された隣接行列の主要特異ベクトルを活用して、送信者および受信者の共通クラスタを同定する。
本手法は、次数の不均一性と有向非対称性の両方を許容する度数補正付き確率的共同ブロックモデルに裏打ちされている。
理論的分析では、リークスケールを用いてアルゴリズムの難易度を制御し、最小次数が増大する必要がない条件下での弱い一貫性を確立する。

実験結果

リサーチクエスチョン

RQ1スペクトル共同クラスタリング手法は、ノードが一方のクラスタに送信するが、別のクラスタから受信するという持続的非対称性を有向ネットワークで検出できるか？
RQ2正則化と射影は、スパースかつ不均一な有向グラフにおけるスペクトルクラスタリングの性能をどのように向上させるか？
RQ3度数補正付き確率的共同ブロックモデルのもとで、Di-Simアルゴリズムの弱い一貫性を保証する理論的条件は何か？
RQ4EnronメールやC. elegans神経接続マップのように、既知の構造的非対称性を示す実世界の有向ネットワークにおいて、アルゴリズムの性能はいかがなものか？
RQ5最小次数ではなく、リークスケールが、スパース有向グラフにおける特異ベクトルの収束にどの程度影響を与えるか？

主な発見

Di-Simは、Enronメールネットワークにおいて、Bill Williamsを、一方のクラスタに送信するが、別のクラスタから受信するという持続的非対称性を持つノードとして正しく同定した。
政治的ブログネットワークでは、6つのブログが非対称なリンク行動を示しており、これにより既知の政治的極化パターンが確認された。
C. elegans神経接続マップでは、異なる送信・受信役割を果たすニューロンが形成するフィードフォワード回路が、Di-Simによって同定された。
理論的分析から、Di-Simは最小次数が増大する必要がない条件下でも、度数補正付き確率的共同ブロックモデルのもとで弱い一貫性を達成することが示された。
正則化と射影により特異ベクトル推定プロセスが安定化されるため、Di-Simの性能は次数の不均一性に対して頑健である。
結果は双方向グラフに対しても適用可能であり、本手法が有向ネットワークを越えた広範な適用可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。