Skip to main content
QUICK REVIEW

[論文レビュー] Information-theoretic thresholds for community detection in sparse networks

Jess Banks, Cristopher Moore|arXiv (Cornell University)|Jul 6, 2016
Complex Network Analysis Techniques参考文献 26被引用数 42
ひとこと要約

本稿は、スパースなストークスティック・ブロック・モデルにおけるコミュニティ検出の情報理論的限界を確立し、平均次数が $ d_c = \Theta\left(\frac{\log q}{q\lambda^2}\right) $ とスケーリングする臨界値を超えるとコミュニティ検出が可能になることを示している。ここで $ \lambda $ はコミュニティ強度を測る。この臨界値を超えると、植え付けられたコミュニティ構造と相関する任意の分割が得られ、臨界値未満では、いかなるアルゴリズムでも高確率でランダムグラフと区別できないことを証明している。

ABSTRACT

We give upper and lower bounds on the information-theoretic threshold for community detection in the stochastic block model. Specifically, consider the symmetric stochastic block model with $q$ groups, average degree $d$, and connection probabilities $c_ ext{in}/n$ and $c_ ext{out}/n$ for within-group and between-group edges respectively; let $λ= (c_ ext{in}-c_ ext{out})/(qd)$. We show that, when $q$ is large, and $λ= O(1/q)$, the critical value of $d$ at which community detection becomes possible---in physical terms, the condensation threshold---is \[ d_ ext{c} = Θ\!\left( \frac{\log q}{q λ^2} ight) \, , \] with tighter results in certain regimes. Above this threshold, we show that any partition of the nodes into $q$ groups which is as `good' as the planted one, in terms of the number of within- and between-group edges, is correlated with it. This gives an exponential-time algorithm that performs better than chance; specifically, community detection becomes possible below the Kesten-Stigum bound for $q \ge 5$ in the disassortative case $λ< 0$, and for $q \ge 11$ in the assortative case $λ>0$ (similar upper bounds were obtained independently by Abbe and Sandon). Conversely, below this threshold, we show that no algorithm can label the vertices better than chance, or even distinguish the block model from an \ER\ random graph with high probability. Our lower bound on $d_ ext{c}$ uses Robinson and Wormald's small subgraph conditioning method, and we also give (less explicit) results for non-symmetric stochastic block models. In the symmetric case, we obtain explicit results by using bounds on certain functions of doubly stochastic matrices due to Achlioptas and Naor; indeed, our lower bound on $d_ ext{c}$ is their second moment lower bound on the $q$-colorability threshold for random graphs with a certain effective degree.

研究の動機と目的

  • スパースなストークスティック・ブロック・モデルにおけるコミュニティ検出の情報理論的限界を特定すること。
  • コミュニティ検出が可能になる臨界平均次数 $ d_c $ を特定し、ランダムグラフモデルと区別すること。
  • 臨界値 $ d_c $ を超えると、植え付けられたコミュニティ構造と相関する任意の分割が回復可能であることを証明すること。臨界値未満では、いかなるアルゴリズムでもランダム推測を上回ることはできないこと。
  • 特に大きな $ q $ に対して、同調的($ \lambda > 0 $)および非同調的($ \lambda < 0 $)な場合を分析すること。
  • 小さな部分グラフ条件付け法と双対確率行列に関する境界を用いて、$ d_c $ のタイトな下界を導出すること。

提案手法

  • $ q $ 個のグループを持つ対称的ストークスティック・ブロック・モデルを用い、エッジ確率を $ c_{\text{in}}/n $ および $ c_{\text{out}}/n $ と定義し、コミュニティ強度パラメータとして $ \lambda = (c_{\text{in}} - c_{\text{out}})/(q d) $ を定義する。
  • ロビンソンとウォーマルドの小さな部分グラフ条件付け法を適用し、凝縮化しきい値 $ d_c $ の下界を導出し、この点未満では検出不能であることを示す。
  • 2次モーメント法とアフリオプタスとナオールが導出した双対確率行列関数の境界を用いて、$ d_c $ の明示的下界を導出し、ランダムグラフの $ q $-彩色しきい値と関連付ける。
  • 条件付きラベル分布と一様事前分布との全変動距離を分析し、$ d_c $ 未満では信念伝播が真のラベルと相関しなくなることを示す。
  • ジェンセンの不等式と条件付き期待値技術を用いて、推定されたラベルと真のコミュニティラベルとの重なりを境界付ける。
  • 臨界値 $ d_c $ よりも著しく小さい $ d \ll d_c $ の場合、任意のアルゴリズムの出力と真のコミュニティ構造との期待重なりはゼロに近づくため、非検出性が証明される。

実験結果

リサーチクエスチョン

  • RQ1スパースなストークスティック・ブロック・モデルにおけるコミュニティ検出の情報理論的限界 $ d_c $ は何か?
  • RQ2臨界しきい値 $ d_c $ は $ q $ および $ \lambda $ に対してどのようにスケーリングするか。特に $ \lambda = O(1/q) $ の場合に注目する。
  • RQ3どの $ q $ および $ \lambda $ の値の組み合わせで、ケステン=スティグムのしきい値未満でもコミュニティ検出が可能になるか?
  • RQ4$ d_c $ 未満では、植え付けられたコミュニティ構造を高確率でエッジ・ランダム・グラフ(Erdős-Rényi)とは区別できるか?
  • RQ5有効次数を持つランダムグラフの $ q $-彩色しきい値と、ストークスティック・ブロック・モデルにおける凝縮化しきい値の関係は何か?

主な発見

  • コミュニティ検出の臨界平均次数は $ d_c = \Theta\left(\frac{\log q}{q\lambda^2}\right) $ であり、特定の領域ではよりタイトな境界が得られる。
  • $ d_c $ を超えると、グループ内およびグループ間のエッジ構造において植え付けられた構造と一致する任意の分割が真のラベルと相関するため、指数時間の検出が可能になる。
  • 非同調的状況($ \lambda < 0 $)では $ q \geq 5 $、同調的状況($ \lambda > 0 $)では $ q \geq 11 $ の場合、ケステン=スティグムのしきい値未満でも検出が可能になる。
  • $ d_c $ 未満では、いかなるアルゴリズムでもランダムな当てずっぽうより優れた頂点ラベリングができない。また、高確率でエッジ・ランダム・グラフ(Erdős-Rényi)とは区別できない。
  • $ d_c $ の下界は、小さな部分グラフ条件付け法を用いて導出され、有効次数を持つランダムグラフの $ q $-彩色の2次モーメント下界と一致する。
  • 非対称なストークスティック・ブロック・モデルへの拡張も行われたが、この場合の境界はより明示的ではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。