QUICK REVIEW

[論文レビュー] Don't Walk, Skip! Online Learning of Multi-scale Network Embeddings

Bryan Perozzi, Vivek Kulkarni|arXiv (Cornell University)|May 6, 2016

Complex Network Analysis Techniques被引用数 38

ひとこと要約

WALKLETS は、固定長の経路を介して到達可能な頂点ペアを生成するために 'スキップ付き' ランダムウォークをサンプリングすることで、マルチスケールネットワーク埋め込みを学習するオンラインアルゴリズムである。マルチラベル分類タスクにおいて、DeepWalk より最大10%、LINE より58%高い Micro-F1 を達成し、数百万ノードを含む大規模グラフに対しても効率的にスケーリングする。

ABSTRACT

We present Walklets, a novel approach for learning multiscale representations of vertices in a network. In contrast to previous works, these representations explicitly encode multiscale vertex relationships in a way that is analytically derivable. Walklets generates these multiscale relationships by subsampling short random walks on the vertices of a graph. By `skipping' over steps in each random walk, our method generates a corpus of vertex pairs which are reachable via paths of a fixed length. This corpus can then be used to learn a series of latent representations, each of which captures successively higher order relationships from the adjacency matrix. We demonstrate the efficacy of Walklets's latent representations on several multi-label network classification tasks for social networks such as BlogCatalog, DBLP, Flickr, and YouTube. Our results show that Walklets outperforms new methods based on neural matrix factorization. Specifically, we outperform DeepWalk by up to 10% and LINE by 58% Micro-F1 on challenging multi-label classification tasks. Finally, Walklets is an online algorithm, and can easily scale to graphs with millions of vertices and edges.

研究の動機と目的

既存のネットワーク表現学習手法が単一の 'サイズに合わせた汎用的' な表現に依存し、ソーシャルネットワーク内の階層的・マルチスケールのコミュニティ構造を捉えられていないという限界に対処すること。
グラフ内の頂点関係の複数スケールを明示的にモデル化・保存できる手法を開発し、より洗練され、正確な予測モデリングを可能にすること。
密行列を明示的に生成しない高品質で解析的に根拠のあるマルチスケール表現を学習できるスケーラブルかつオンラインなアルゴリズムを構築すること。
マルチスケール表現が、実世界のマルチラベルネットワーク分類タスクにおける性能向上に寄与することを実証すること。

提案手法

WALKLETS は、ランダムウォークにおける 'スキップ' を用いて、特定の経路長に沿って頂点ペアのコーパスを生成する。これにより、特定の経路長における関係性がエンコードされる。
サンプルされた頂点ペアに対してオンライン学習を用いて、word2vec スタイルのスキップグラムモデルを訓練し、高階層の構造的関係性を捉える潜在表現を学習する。
各学習済み埋め込み次元は、特定のスケールの接続性に対応しており、短いスキップは局所的・細分化された関係性を捉え、長いスキップは広範囲的・粗い構造を捉える。
GraRep が密行列（A^k の形）を明示的に計算・保存するのを避けるために、サンプリングにより高階層遷移行列（A^k）を暗黙的に因数分解する。
アルゴリズムはオンラインかつインクリメンタルに設計されており、数百万の頂点・辺を含むグラフに対しても効率的なスケーリングが可能である。
この手法は行列因数分解理論に基づいており、各スケールが隣接行列の k 乗の別々の因数分解に対応する。

実験結果

リサーチクエスチョン

RQ1解析的に導出可能で解釈可能な方法で、頂点関係の複数スケールを明示的にエンコードできるネットワーク埋め込みを学習できるか？
RQ2単一スケール表現と比較して、マルチスケール関係性をモデル化することで、マルチラベルネットワーク分類タスクの性能がどの程度向上するか？
RQ3密行列を明示的に生成しないことで、大規模な実世界グラフにスケーラブルな高品質なマルチスケール埋め込みを実現できるか？
RQ4サンプリングベースのアプローチは、GraRep が用いる正確な遷移行列をどの程度正確に近似できるか？
RQ5得られた埋め込みは、階層的コミュニティ構造を明らかにする意味のある可視化や解釈が可能か？

主な発見

WALKLETS は、複数の実世界ネットワークにおける挑戦的なマルチラベル分類タスクにおいて、DeepWalk より最大10%高い Micro-F1 を達成した。
WALKLETS は、同じマルチラベル分類ベンチマークにおいて、LINE より58%高い Micro-F1 を達成した。
本手法は低近似誤差を達成しており、DBLP では平均誤差 9.3×10⁻⁵、BlogCatalog では 1.4×10⁻⁵ を示しており、サンプリングが正確な遷移行列を効果的に近似していることを示している。
WALKLETS は大規模グラフにも滑らかにスケーリングされ、オンライン学習により、数百万の頂点・辺を含むネットワークの効率的処理が可能である。
学習済み埋め込みは複数スケールの構造を保持しており、細分化されたクリークや広範囲のコミュニティクラスタなどの階層的関係性を意味的に可視化できる。
本手法は解析的に根拠のある表現を提供しており、各次元が接続性の別々のスケールに対応しており、解釈可能性とモデルの洞察を高めている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。