QUICK REVIEW

[論文レビュー] Optimizing Generalized PageRank Methods for Seed-Expansion Community Detection

Li Pan, Eli Chien|arXiv (Cornell University)|May 26, 2019

Complex Network Analysis Techniques参考文献 56被引用数 24

ひとこと要約

本稿では、種まき拡張コミュニティ検出を向上させるために、到着確率（LP）重みを最適化する新しい一般化ページランク（GPR）手法である逆ページランク（IPR）を提案する。エッジ独立なランダムグラフ上でのLPの非漸近的収束バウンドを導出することで、著者らはLPの識別的パワーが従来の予想よりも遅く衰えることを示し、IPRが初期ウォークステップに対して加重を増大させることで、合成ネットワークおよび実世界のネットワークにおいてPPRやHPRを上回ることを明らかにした。

ABSTRACT

Landing probabilities (LP) of random walks (RW) over graphs encode rich information regarding graph topology. Generalized PageRanks (GPR), which represent weighted sums of LPs of RWs, utilize the discriminative power of LP features to enable many graph-based learning studies. Previous work in the area has mostly focused on evaluating suitable weights for GPRs, and only a few studies so far have attempted to derive the optimal weights of GRPs for a given application. We take a fundamental step forward in this direction by using random graph models to better our understanding of the behavior of GPRs. In this context, we provide a rigorous non-asymptotic analysis for the convergence of LPs and GPRs to their mean-field values on edge-independent random graphs. Although our theoretical results apply to many problem settings, we focus on the task of seed-expansion community detection over stochastic block models. There, we find that the predictive power of LPs decreases significantly slower than previously reported based on asymptotic findings. Given this result, we propose a new GPR, termed Inverse PR (IPR), with LP weights that increase for the initial few steps of the walks. Extensive experiments on both synthetic and real, large-scale networks illustrate the superiority of IPR compared to other GPRs for seeded community detection.

研究の動機と目的

種まき拡張コミュニティ検出のための理論的裏付けがあり最適なGPR重みが不足している問題に対処すること。
特に平均場値への収束に関して、ランダムグラフにおける到着確率（LP）の非漸近的挙動を分析すること。
LPが従来の予想よりも長く識別的パワーを維持することを同定し、漸近的結果に挑戦すること。
この知見に基づき、初期ウォークステップに加重を増大させる新しいGPR手法IPRを設計すること。
多様なネットワークタイプにわたり、IPRがPPRやHPRを上回ることを実験的に検証すること。

提案手法

エッジ独立なランダムグラフ上でのLPの非漸近的濃度バウンドを導出し、分散がコミュニティ内と跨りの平均差よりも速く減少することを示した。
平均場LP挙動を特徴づけ、ウォーク長にわたる識別的パワーを定量化するために、変更されたストキャスティックブロックモデル（SBM）を用いた。
重み γₖ = θᵏ / (θᵏ + φ)² を有する逆ページランク（IPR）を提案。φはk=10でピークを取るように調整され、初期ステップに加重を増大可能となった。
GPRスコアをkステップLPの重み付き和として導出し、コミュニティ検出に最適化された重みを用いる線形分類器フレームワークを採用。
度数正規化は有益な場合にのみ適用。高次数ネットワーク（例：Amazon、DBLP）では、生のLPが性能向上を示したため、それ以外は生のLPを用いた。
合成ネットワークおよび実世界のネットワーク（例：Amazon、DBLP）において、複数のkステップでの再現率メトリクスを用いて性能を検証。IPR、PPR、HPRを比較。

実験結果

リサーチクエスチョン

RQ1エッジ独立なランダムグラフ上での到着確率（LP）は、非漸近的領域でどのように振る舞うか？
RQ2kステップLPの予測パワーはkとともに単調に減少するのか、それともより長いウォーク長でも維持されるのか？
RQ3初期ステップに加重を増大させるGPRは、標準的なGPR（PPRやHPR）を上回る性能を示せるか？
RQ4非漸近的分散および平均場収束レートは、GPR重み系列の最適性にどのように影響するか？
RQ5提案されたIPR手法は、高次数および実世界のネットワークを含む多様なネットワークタイプに一般化可能か？

主な発見

非漸近的解析により、LPの分散がコミュニティ内と跨りの平均差よりも速く減少することが判明。これは、より長いウォークステップでも識別的パワーが継続することを示唆。
kステップLPの予測パワーは、漸近的解析に基づく従来の予想よりも、特に初期〜中盤のウォーク範囲で著しく速く衰えないことが判明。
初期ステップに加重を増大（k=10でピーク）するIPRは、合成ネットワークおよび実世界のネットワーク（例：Amazon、DBLP）において、PPRやHPRを上回る再現率を達成。
Amazonネットワークでは、k=20で48.53%の再現率を達成。HPR（48.55%）およびPPR（48.43%）を上回り、標準偏差も最小限に抑えられた。
DBLPネットワークでは、k=20で29.32%の再現率を達成。HPR（28.85%）およびPPR（29.06%）を上回り、密な高次数ネットワークでも一貫した優位性を確認。
度数正規化は、Amazon や DBLP のような高次数ネットワークではLPの予測性を低下させるため、このような状況では生のLPが好ましい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。