QUICK REVIEW

[論文レビュー] Fast Detection of Overlapping Communities via Online Tensor Methods

Furong Huang, U. N. Niranjan|arXiv (Cornell University)|Sep 3, 2013

Tensor decomposition and applications参考文献 16被引用数 31

ひとこと要約

本稿では、多次元スペクトル最適化における確率的勾配降下法を用いて、大規模ネットワークにおける重複コミュニティの検出に向けた高速でスケーラブルなテンソルベースの手法を提案する。実世界のデータセット（Facebook、Yelp、DBLP）において、最新の手法と比較して数個のオーダーの高速化を達成しながらも、コミュニティ所属の回復精度を高い水準で維持している。

ABSTRACT

We present a fast tensor-based approach for detecting hidden overlapping communities under the Mixed Membership Stochastic Blockmodel (MMSB). We present two implementations, viz., a GPU-based implementation which exploits the parallelism of SIMD architectures and a CPU-based implementation for larger datasets, wherein the GPU memory does not suffice. Our GPU-based implementation involves a careful optimization of storage, data transfer and matrix computations. Our CPU-based implementation involves sparse linear algebraic operations which exploit the data sparsity. We use stochastic gradient descent for multilinear spectral optimization and this allows for flexibility in the tradeoff between node sub-sampling and accuracy of the results. We validate our results on datasets from Facebook, Yelp and DBLP where ground truth is available, using notions of p-values and false discovery rates, and obtain high accuracy for membership recovery. We compare our results, both in terms of execution time and accuracy, to the state-of-the-art algorithms such as the variational method, and report many orders of magnitude gain in the execution time. The tensor method is also applicable for unsupervised learning of a wide range of latent variable models, and we also demonstrate efficient recovery of topics from the New York Times dataset.

研究の動機と目的

隠れたコミュニティ構造を有する大規模ネットワークにおいて、重複コミュニティを効率的に検出する課題に対処すること。
大規模データセットに対して既存の変分的手法およびテンソルベースの手法に見られる計算上の制限を克服すること。
現代のアーキテクチャにおけるデータのスパarsityと並列性を活用することで、スケーラブルで高精度なコミュニティ検出を実現すること。
オンライン最適化を通じて、ノードのサブサンプリングと推定精度の間の柔軟なトレードオフを提供するフレームワークを構築すること。

提案手法

重複コミュニティの生成モデルとして、混合メンバー確率的ブロックモデル（MMSB）を採用する。
オンラインで逐次学習が可能な、確率的勾配降下法を用いた多次元スペクトル最適化を適用する。
SIMD並列性を考慮した最適化されたメモリアクセス、データ転送、行列演算を実装したGPUベースのバージョンを構築する。
GPUメモリ容量を超えるデータセットを処理できるよう、スパースな線形代数を活用したCPUベースのバージョンを開発する。
テンソル分解技術を用いて、ネットワークデータから隠れた重複コミュニティ構造を抽出する。
オンライン学習を通じて、ノードのサブサンプリングと推定精度の間の柔軟なトレードオフを実現する。

実験結果

リサーチクエスチョン

RQ1テンソルベースの手法は、重複コミュニティ検出のための最新のアルゴリズムと比較して、著しく高速な実行時間を達成できるか？
RQ2本手法は、既知のコミュニティ構造を有する実世界ネットワークにおいて、真のコミュニティ所属をどの程度正確に回復できるか？
RQ3GPUメモリ制限を超える大規模データセットに対しても、本手法はどの程度スケーラブルに動作するか？
RQ4確率的勾配降下法の使用が、コミュニティ検出の精度および収束性にどのように影響するか？
RQ5本手法は、コミュニティ検出を越えて、教師なしトピックモデリングタスクへも効果的に拡張可能か？

主な発見

GPUベースの実装は、最新の変分的手法と比較して、数個のオーダーの高速な実行時間を達成した。
Facebook、Yelp、DBLPのデータセットにおいて、コミュニティ所属の回復精度が高く、p値および偽発見率を用いた検証が行われた。
CPUベースの実装は、スパースな線形代数演算を活用することで、より大きなデータセットを効果的に処理できた。
確率的勾配降下法により、サブサンプリングと精度の間の有効なトレードオフが実現され、さまざまなデータスケールで安定したパフォーマンスを発揮した。
本手法はコミュニティ検出を越えて一般化がうまくいき、ニューヨーク・タイムズのデータセットから効率的なトピック回復が可能であった。
テンソルベースのアプローチは、スケーラビリティと精度の両面で優れた性能を示し、既存の手法を速度および正確性の両面で上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。