Skip to main content
QUICK REVIEW

[論文レビュー] Fast Detection of Overlapping Communities via Online Tensor Methods on GPUs

Furong Huang, U. N. Niranjan|arXiv (Cornell University)|Sep 3, 2013
Tensor decomposition and applications被引用数 13
ひとこと要約

本稿では、混合-membership ストーキャスティック・ブロック・モデルの下で、大規模ネットワークにおける重複コミュニティを検出するため、確率的勾配降下を用いた高速でGPUアクセラレートされたオンラインテンソル分解手法を提案する。40,000ノードのネットワークでは30分未塔、120,000ノードのネットワークでは3時間未塔の高速な精度を達成しており、速度と精度の両面で最先端の変分法を上回っている。

ABSTRACT

We present a scalable tensor-based approach for detecting hidden overlapping communities under the mixed membership stochastic block model. We employ stochastic gradient descent for performing tensor decompositions, which provides flexibility to tradeoff node sub-sampling with accuracy. Our GPU implementation of the tensor-based approach is extremely fast and scalable, and involves a careful optimization of GPU-CPU storage and communication. We validate our results on datasets from popular social networks (Facebook, Yelp and DBLP), where ground truth is available, using notions of p-values and false discovery rates, and obtain high accuracy for membership recovery. We compare our results, both in terms of execution time and accuracy, to the state-of-the-art algorithms such as the variational method, and report better performance. For instance, on the Yelp network consisting of about 40,000 nodes and 500 communities, we recover the latent communities in under 30 minutes, and on the DBLP network consisting of about 120,000 nodes and 500 communities, we recover the latent communities in about 2.8 hours. In comparison, the variational method takes more than an order of magnitude higher execution time on the same datasets.

研究の動機と目的

  • 大規模ネットワークにおける重複コミュニティ検出を、高い計算効率で行うことを目的とする。
  • スケーラビリティを向上させるために、オンラインでサブサンプリングに強く対応する学習を可能にする、既存のテンソル分解手法の改善を目的とする。
  • 現実のネットワークにおけるコミュニティ検出の実行時間を短縮し、精度を損なわずに行うことを目的とする。
  • GPU-CPU間のメモリと通信オーバーヘッドを最適化し、高性能なテンソル分解を実現することを目的とする。
  • 統計的指標(p値や偽発見率)を用いて、実際の社会的ネットワークデータセット(既知の真値を有する)に対して手法を検証することを目的とする。

提案手法

  • オンラインテンソル分解のための確率的勾配降下(SGD)を採用し、サブサンプリングと精度の間で柔軟なトレードオフを実現する。
  • 重複コミュニティ構造の背後にある生成モデルとして、混合-membership ストーキャスティック・ブロック・モデルを用いる。
  • GPU-CPU間のデータ保存と通信を的確に管理することで、スループットを最大化するGPU最適化実装を設計する。
  • オンライン学習を適用して大規模ネットワークを段階的に処理することで、バッチ法をはるかに超えるスケーラビリティを実現する。
  • 高次元のネットワーク相互作用から潜在的な重複コミュニティ所属をテンソル分解により回復する。
  • p値や偽発見率を用いた統計的検証を統合し、回復された所属関係の信頼性を評価する。

実験結果

リサーチクエスチョン

  • RQ1オンラインテンソル分解による確率的勾配降下は、バッチ法や変分法と比較して、大規模ネットワークにおけるコミュニティ検出をより高速に実現できるか?
  • RQ2オンライン学習中のサブサンプリングが、重複コミュニティ回復の精度に及ぼす影響はどの程度か?
  • RQ3Facebook、Yelp、DBLPのような異なるサイズのネットワークにおいて、GPU最適化実装はどの程度スケーリングするか?
  • RQ4提案手法と最先端の変分推論アプローチとの間には、実行時間と精度の面でどの程度のギャップがあるか?
  • RQ5真値が利用可能な状況で、本手法はコミュニティ所属回復に高い統計的信頼性を維持できるか?

主な発見

  • Yelpネットワーク(約40,000ノード、500コミュニティ)では、本手法が30分未塔で潜在的コミュニティを回復する。
  • DBLPネットワーク(約120,000ノード、500コミュニティ)では、本手法が約2.8時間でコミュニティ検出を完了する。
  • 同じデータセットにおいて、本手法は最先端の変分法を10倍以上も高速に実行する。
  • 本手法は、実世界の社会的ネットワークデータセットを用いたp値や偽発見率による検証を通じて、高い精度の所属回復を達成する。
  • オンラインSGDベースのテンソル分解により、スケーラブルで柔軟な学習が可能となり、速度と精度の間で調整可能なトレードオフが実現される。
  • GPU最適化実装により、CPUとGPU間の通信およびストレージのボトルネックが顕著に低減され、全体のパフォーマンスが向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。