Skip to main content
QUICK REVIEW

[論文レビュー] Infinite Edge Partition Models for Overlapping Community Detection and Link Prediction

Mingyuan Zhou|arXiv (Cornell University)|Jan 25, 2015
Complex Network Analysis Techniques参考文献 19被引用数 44
ひとこと要約

本稿では、重みなし・無向ネットワークにおける重複コミュニティ検出およびリンク予測のための階層的ガンマ過程エッジ分割モデル(HGP-EPM)を提案する。ベルヌーイ・ポアソンリンクを用いて観測済みエッジのみを分割し、非パrametricベイズ枠組みを採用することで、大規模なスパースネットワークにおいてスケーラブルな推論が可能となり、コミュニティ数の自動推定が可能であり、4つの実世界ネットワークにおいてコミュニティ検出およびリンク予測の両面で最先端の性能を達成する。

ABSTRACT

A hierarchical gamma process infinite edge partition model is proposed to factorize the binary adjacency matrix of an unweighted undirected relational network under a Bernoulli-Poisson link. The model describes both homophily and stochastic equivalence, and is scalable to big sparse networks by focusing its computation on pairs of linked nodes. It can not only discover overlapping communities and inter-community interactions, but also predict missing edges. A simplified version omitting inter-community interactions is also provided and we reveal its interesting connections to existing models. The number of communities is automatically inferred in a nonparametric Bayesian manner, and efficient inference via Gibbs sampling is derived using novel data augmentation techniques. Experimental results on four real networks demonstrate the models' scalability and state-of-the-art performance.

研究の動機と目的

  • コミュニティが互いに排他的であるか、事前にコミュニティ数を指定する必要があるという従来のコミュニティ検出モデルの制限を解消すること。
  • 重複コミュニティをサポートし、非パrametricベイズ的アプローチによりコミュニティ数を自動的に推定する生成モデルの開発。
  • 観測済みエッジにのみ計算を集中させることで、大規模スパースネットワークにおける効率的な推論とリンク予測を可能にすること。
  • 関係ネットワークにおける同質性(アソートティブ構造)と確率的同等性(ディアソートティブ構造)の両方をモデル化すること。
  • MMSBのような二次的計算量を要するモデルの代替手段として、すべてのノードペアではなくエッジを分割することでスケーラブルな代替手段を提供すること。

提案手法

  • 観測済みエッジを潜在的カウントにリンクするベルヌーイ・ポアソンリンクを用いた階層的ガンマ過程(HGP)エッジ分割モデル(EPM)を提案する。
  • 潜在的 $N \times N$ カウント行列を階層的ガンマ過程を用いて要約することで、無限個のコミュニティおよびコミュニティ間相互作用率のサポートを実現する。
  • データ拡張技術を用いて、すべての潜在変数について閉形式の条件付き更新が可能な効率的なギブスサンプリングを導出する。
  • 相互作用項を省略することで高速化を図る簡略化されたガンマ過程EPMを導入し、モデル化の能力を多少犠牲にしている。
  • 非パrametricベイズ的事前分布(階層的ガンマ過程)を用いることで、コミュニティ数がデータに応じて増加し、手動でのチューニングを回避できる。
  • エッジの存在をポアソン分布に従う潜在的カウントを用いたベルヌーイ試行としてモデル化することで、二値隣接行列に適用する。

実験結果

リサーチクエスチョン

  • RQ1パラメータを事前に指定せずに、非パrametricベイズモデルが大規模スパースネットワークにおける重複コミュニティを効果的に検出できるか。
  • RQ2生成モデルは、関係ネットワークにおける同質性と確率的同等性の両方を同時に捉えることができるか。
  • RQ3観測済みエッジにのみ注目するエッジ分割は、ノードまたはエッジペアベースのモデルと比較して、スケーラブルかつ高精度なコミュニティ検出およびリンク予測を実現できるか。
  • RQ4提案モデルは、SBM、MMSB、IRM、Eigenmodelといった既存モデルと比較して、実世界ネットワークにおいてどの程度の性能を示すか。
  • RQ5相互作用項を省略した簡略化されたガンマ過程EPMは、完全なHGP-EPMと比較して性能とスケーラビリティの面でどの程度の差異を示すか。

主な発見

  • HGP-EPMはNIPS12共同著者ネットワークにおいて、AUC-ROCが 0.9762 ± 0.0081、AUC-PRが 0.4493 ± 0.0229 という最先端の性能を達成し、IRM、AGM、GP-EPMを上回った。
  • ユーラスのタンパク質相互作用ネットワークでは、AUC-ROCが 0.9367 ± 0.0012、AUC-PRが 0.2628 ± 0.0184 を達成し、確率的同等性を示すネットワークに対しても優れた性能を示した。
  • HGP-EPMおよびGP-EPMは効率的にスケーリングされ、NIPS12ネットワーク(2037ノード、3134エッジ)において1000回のMCMC反復でそれぞれ32分および12分で処理が完了した。
  • 一方、IRMモデルは少ないが大きなコミュニティを推定し、低次数ノードを少数の主要コミュニティにグループ化する傾向があり、細分化されたコミュニティ構造を捉え損なっていた。
  • HGP-EPMおよびGP-EPMは、$O(N^2)$の計算量を要するEigenmodelおよびILAと比較して顕著に高速であり、NIPS234ネットワークでは18時間以上かかっていたが、本モデルではそれよりはるかに短時間で処理が可能だった。
  • 簡略化されたGP-EPMはNIPS12のようなアソートティブネットワークにおいても良好な性能を示し、AUC-PRが 0.4705 ± 0.0362 を達成しており、相互作用項が重要でない状況では優れたリンク予測能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。