QUICK REVIEW

[論文レビュー] Uncovering the Small Community Structure in Large Networks: A Local Spectral Approach

Yixuan Li, Kun He|arXiv (Cornell University)|Sep 25, 2015

Complex Network Analysis Techniques参考文献 20被引用数 27

ひとこと要約

本稿では、短いランダムウォークから得られる局所スペクトルの線形空間に属するスパースなベクトルを特定することにより、大規模ネットワークにおける重複コミュニティを検出する局所スペクトル手法LEMONを提案する。そのスパースなベクトルのsupporthに種まきノードが含まれるようにする。LEMONは最先端の精度を達成し、コミュニティサイズに線形にスケールするため、計算コストを最小限に抑えつつ10億ノード規模のネットワークにおける効率的なコミュニティ検出が可能である。

ABSTRACT

Large graphs arise in a number of contexts and understanding their structure and extracting information from them is an important research area. Early algorithms on mining communities have focused on the global structure, and often run in time functional to the size of the entire graph. Nowadays, as we often explore networks with billions of vertices and find communities of size hundreds, it is crucial to shift our attention from macroscopic structure to microscopic structure when dealing with large networks. A growing body of work has been adopting local expansion methods in order to identify the community from a few exemplary seed members. In this paper, we propose a novel approach for finding overlapping communities called LEMON (Local Expansion via Minimum One Norm). Different from PageRank-like diffusion methods, LEMON finds the community by seeking a sparse vector in the span of the local spectra such that the seeds are in its support. We show that LEMON can achieve the highest detection accuracy among state-of-the-art proposals. The running time depends on the size of the community rather than that of the entire graph. The algorithm is easy to implement, and is highly parallelizable. Moreover, given that networks are not all similar in nature, a comprehensive analysis on how the local expansion approach is suited for uncovering communities in different networks is still lacking. We thoroughly evaluate our approach using both synthetic and real-world datasets across different domains, and analyze the empirical variations when applying our method to inherently different networks in practice. In addition, the heuristics on how the quality and quantity of the seed set would affect the performance are provided.

研究の動機と目的

ネットワークサイズの増大に伴いスケーリングが著しく劣化するグローバルコミュニティ検出手法の限界を克服すること。
大規模ネットワークにおける小さな重複コミュニティを局所的かつスケーラブルに同定する手法を開発すること。
短いランダムウォークから得られるスペクトル構造を活用することで、既存のシードセット拡張手法よりも検出精度を向上させること。
多様な実世界および合成ネットワークにおける局所的拡張手法の実験的挙動を分析すること。
最適なパフォーマンスを得るためのシードセットの質とサイズに関する実用的ヒューリスティクスを提供すること。

提案手法

LEMONは、シードノードから開始する短いランダムウォークの主要な特異ベクトルを用いて、局所スペクトル部分空間を構築する。
コミュニティ検出を、その局所スペクトル部分空間内におけるスパースなベクトル選択問題として定式化し、そのサポートにシードノードが含まれるようにする。
スパースなベクトルがシードを含むような、最小ノルム（one-norm）最適化問題を解くことで、局所スペクトル空間内で最もスパースなベクトルを特定する。
低導出率コミュニティは局所スペクトル空間内での小さなone-normを持つベクトルに対応することを活用する。
計算効率を確保するために、スパース解からコミュニティを回復するためのグリーディスレーティング戦略を用いる。
この手法は並列処理に強く、グラフ全体のサイズではなく、ターゲットコミュニティのサイズに比例した時間で実行される。

実験結果

リサーチクエスチョン

RQ110億ノード規模のネットワークと、サイズが約100のコミュニティを対象とした場合、コミュニティ検出をどのようにして効率化できるか？
RQ2局所スペクトルクラスタリングは、コミュニティ検出精度において、ランダムウォークベースの拡散手法をどの程度上回るか？
RQ3次数分布やコミュニティの混合度といったネットワーク構造の変化が、局所的拡張アルゴリズムの性能に与える影響は何か？
RQ4実世界ネットワークと合成ネットワークにおいて、シードセットサイズ、シードの質、ランダムウォークパラメータの変動に対する、本手法の感度はどの程度か？
RQ5コミュニティが人工的に構築されていなくても、実世界ネットワークにおける自然に形成されたコミュニティを、局所スペクトル手法が効果的に検出できるか？

主な発見

LEMONは、LFRベンチマークデータセットにおいて、最先端の手法と比較して最高のF1スコアを達成し、LC、DEMON、その他のベースライン手法を著しく上回った。
YouTube や DBLP などの実世界ネットワークにおいても、LEMONはパrameterチューニングを最小限に抑えつつ高い精度を維持した。特に (k,l) = (3,3) かつシードセットサイズが3の場合に顕著であった。
実ネットワークではランダムウォークステップ数kや部分空間次元lの変化に対して、合成LFRグラフよりも感受性が低く、実用的においてより高いロバストネスを示した。
実ネットワークでは高次数ノードに対してLEMONはより感受性を示すが、その影響はそのノードへの初期確率質量を減らすことで軽減可能である。
LC や DEMON は合成データにおいては性能が著しく劣り、LCはコミュニティを断片化し、DEMONは過剰拡張する傾向にあり、真のコミュニティ構造と整合性に欠けることが示唆された。
本手法は、常に低導出率コミュニティを高精度で特定でき、真のコミュニティと類似性が高いため、階層的コミュニティ発見への応用が有望である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。