Skip to main content
QUICK REVIEW

[論文レビュー] Homogeneous Network Embedding for Massive Graphs via Personalized PageRank.

Renchi Yang, J. Y. Shi|arXiv (Cornell University)|Jun 17, 2019
Complex Network Analysis Techniques被引用数 3
ひとこと要約

本稿では、ノード次数の再重み付けを用いたパーソナライズドページランクを用いて、スケーラブルかつ効率的な均質的ネットワーク埋め込み(HNE)のためのノード再重み付けページランク(NRP)を提案する。NRPは、1つのCPUコアで10億エッジのグラフを4時間未塔でスケーリング可能であり、リンク予測、ノード分類、グラフ再構築のタスクで最先端の性能を達成する。

ABSTRACT

Given an input graph G and a node v in G, homogeneous network embedding (HNE) maps the graph structure in the vicinity of v to a compact, fixed-dimensional feature vector. This paper focuses on HNE for massive graphs, e.g., with billions of edges. On this scale, most existing approaches fail, as they incur either prohibitively high costs, or severely compromised result utility. Our proposed solution, called Node-Reweighted PageRank (NRP), is based on a classic idea of deriving embedding vectors from pairwise personalized PageRank (PPR) values. Our contributions are twofold: first, we design a simple and efficient baseline HNE method based on PPR that is capable of handling billion-edge graphs on commodity hardware; second and more importantly, we identify an inherent drawback of vanilla PPR, and address it in our main proposal NRP. Specifically, PPR was designed for a very different purpose, i.e., ranking nodes in G based on their relative importance from a source node's perspective. In contrast, HNE aims to build node embeddings considering the whole graph. Consequently, node embeddings derived directly from PPR are of suboptimal utility. The proposed NRP approach overcomes the above deficiency through an effective and efficient node reweighting algorithm, which augments PPR values with node degree information, and iteratively adjusts embedding vectors accordingly. Overall, NRP takes O(mlogn) time and O(m) space to compute all node embeddings for a graph with m edges and n nodes. Our extensive experiments that compare NRP against 18 existing solutions over 7 real graphs demonstrate that NRP achieves higher result utility than all the solutions for link prediction, graph reconstruction and node classification, while being up to orders of magnitude faster. In particular, on a billion-edge Twitter graph, NRP terminates within 4 hours, using a single CPU core.

研究の動機と目的

  • 10億エッジのグラフを対象とした既存の均質的ネットワーク埋め込み(HNE)手法のスケーラビリティと有用性の制限を解決すること。
  • ノードの構造的役割をより適切に反映するために、ノード次数を組み込んだ再重み付けされたP这些问题の解決。
  • 大規模スケールでも高い埋め込み品質を維持できる、軽量で一般ハードウェアと互換性のあるHNE手法を設計すること。
  • P这些问题にノード次数情報を統合することで、学習された埋め込みの表現の正確性を向上させること。

提案手法

  • NRPは、ノード次数をP这些问题値に組み込むノード再重み付け機構を導入することで、パーソナライズドページランク(PPR)を拡張する。
  • この手法は、再重み付けされたPPRスコアを反復的に用いて埋め込みベクトルを調整し、グラフのグローバル構造をよりよく捉える能力を向上させる。
  • 時間計算量O(m log n)、空間計算量O(m)を維持しており、10億エッジのグラフでも効率的な計算が可能である。
  • 再重み付けプロセスは計算的に軽量に設計されており、PPRの効率性を保ちつつ、埋め込みの有用性を向上させる。
  • 各ノードに対して、再重み付けされたPPR値から得られる固定次元のベクトル表現を用いる。
  • アルゴリズムは1つのCPUコアでの実装がなされており、専用インfrastrucureを必要とせず、標準的なハードウェアでも展開可能である。

実験結果

リサーチクエスチョン

  • RQ1PPRに基づく手法が、大規模グラフにおける均質的ネットワーク埋め込みにおいて、スケーラブルかつ効果的であるか。
  • RQ2PPRにノード次数情報を組み込むことで、学習されたノード埋め込みの有用性が向上するか。
  • RQ3NRPは、複数の下流タスクにおいて、18の既存HNE手法と比較して、性能と効率の両面で優れているか。
  • RQ4NRPは、1つのCPUコアを用いて10億エッジのグラフを4時間未塔で処理し、最先端の結果を達成できるか。
  • RQ5提案されたノード再重み付け機構は、HNEにおけるノンパラメトリックPPRの根本的限界を効果的に是正できるか。

主な発見

  • NRPは、リンク予測、グラフ再構築、ノード分類の各タスクにおいて、比較した18の手法すべてを上回る埋め込みの有用性を達成する。
  • 10億エッジのTwitterグラフにおいて、NRPは1つのCPUコアで4時間以内に処理を完了し、優れたスケーラビリティを示す。
  • NRPは、実行時間において最大数個のオーダーの向上を達成し、速度と正確性の両面で既存手法を上回る。
  • ノード次数情報を再重み付けによって組み込むことで、ノンパラメトリックPPRと比較して、埋め込みの品質が顕著に向上する。
  • O(m log n)の時間計算量とO(m)の空間計算量を維持しており、一般ハードウェア上で大規模グラフを効率的に処理できる。
  • 7つの実世界のグラフにおける広範な実験により、NRPの堅牢性と優位性が、多様なグラフ構造とタスクにおいて確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。