Skip to main content
QUICK REVIEW

[論文レビュー] Subgraph Frequencies: Mapping the Empirical and Extremal Geography of Large Graph Collections

Johan Ugander, Lars Bäckström|arXiv (Cornell University)|Apr 4, 2013
Complex Network Analysis Techniques参考文献 27被引用数 43
ひとこと要約

本稿では、3または4ノードからなるすべての誘導部分グラフの正規化された頻度(頻度ベクトル)に基づいて、大規模な小規模で密な社会的グラフの集合のための座標系を提案する。極値グラフ理論を用いて可能な部分グラフ頻度の範囲を制限し、エッジ形成のランダムウォークに基づく確率的生成モデルを用いて、実社会的グラフにおける実証的クラスタリングを説明する。主な貢献は、局所的構造的特徴のみを用いて、グラフタイプ(例:地域社会 vs. グループ vs. イベント)を82%の正確さで分類可能な、強固で低次元の表現を可能にすることである。

ABSTRACT

A growing set of on-line applications are generating data that can be viewed as very large collections of small, dense social graphs -- these range from sets of social groups, events, or collaboration projects to the vast collection of graph neighborhoods in large social networks. A natural question is how to usefully define a domain-independent coordinate system for such a collection of graphs, so that the set of possible structures can be compactly represented and understood within a common space. In this work, we draw on the theory of graph homomorphisms to formulate and analyze such a representation, based on computing the frequencies of small induced subgraphs within each graph. We find that the space of subgraph frequencies is governed both by its combinatorial properties, based on extremal results that constrain all graphs, as well as by its empirical properties, manifested in the way that real social graphs appear to lie near a simple one-dimensional curve through this space. We develop flexible frameworks for studying each of these aspects. For capturing empirical properties, we characterize a simple stochastic generative model, a single-parameter extension of Erdos-Renyi random graphs, whose stationary distribution over subgraphs closely tracks the concentration of the real social graph families. For the extremal properties, we develop a tractable linear program for bounding the feasible space of subgraph frequencies by harnessing a toolkit of known extremal graph theory. Together, these two complementary frameworks shed light on a fundamental question pertaining to social graphs: what properties of social graphs are 'social' properties and what properties are 'graph' properties? We conclude with a brief demonstration of how the coordinate system we examine can also be used to perform classification tasks, distinguishing between social graphs of different origins.

研究の動機と目的

  • 大規模な小規模で密な社会的グラフの集合を分析するためのドメインに依存しない座標系の開発。
  • 人間の行動から生じる「社会的」性質(エメrgェント)と、組合せ的制約から生じる「グラフ的」性質(組合せ的制約)の区別。
  • 統一された空間内での異なるグラフタイプ(例:ネットワーク地域社会、グループ、イベント)の比較的分析を可能にする。
  • 局所的部分グラフ頻度が分類タスクにおいて、グローバルなグラフ特徴を上回る可能性があるかどうかの評価。

提案手法

  • すべてのkノード部分グラフ(k=3または4)について、各座標を特定の部分グラフHを誘導するkタプルの割合として、各グラフを部分グラフ頻度ベクトルとして表現する。
  • 極値グラフ理論に基づく線形計画法を用いて、部分グラフ頻度ベクトルの可能な領域を制限し、普遍的な組合せ的制約を捉える。
  • パラメータが1つの確率的生成モデル(エッジ形成のランダムウォーク)を考案し、その平衡分布が実社会的グラフの部分グラフ頻度空間における1次元的集中をよく再現する。
  • ベースラインモデル(Erdős–Rényiとエッジ形成のランダムウォーク)の予測値と観測された部分グラフ頻度との残差を計算し、座標系を精緻化する。
  • 部分グラフ頻度ベクトルに残差を加えた特徴を入力として、5分割交差検証を用いたグラフ分類を実施する。
  • 部分グラフ頻度のみ、グローバルなグラフ特徴のみ、およびそれらの組み合わせを用いた分類性能を比較する。

実験結果

リサーチクエスチョン

  • RQ1部分グラフ頻度に基づく低次元の座標系は、異なるタイプの社会的グラフを効果的に表現し、区別できるか?
  • RQ2実社会的グラフは、部分グラフ頻度空間においてどの程度1次元の曲線に沿って集中しているか。また、そのような集中を説明する生成プロセスは何か?
  • RQ3組合せ的極値制約は、すべてのグラフにおいて部分グラフ頻度の可能な空間をどの程度制限するか?
  • RQ4局所的部分グラフ頻度特徴は、グローバルなグラフ特徴を上回って、グラフタイプの分類において優れた性能を示せるか?

主な発見

  • 部分グラフ頻度のみを用いた分類で、ネットワーク地域社会、社会的グループ、イベントの区別に77%の正確さを達成した。
  • エッジ形成のランダムウォークに基づく確率的生成モデルは、実社会的グラフの部分グラフ頻度空間における1次元的集中をよく再現した。
  • G_{n,p} またはエッジ形成モデルに対する残差を組み込むことで、分類正確さが最大5ポイント向上し、座標系の精緻化におけるその価値を示した。
  • 部分グラフ頻度とグローバルなグラフ特徴を組み合わせた場合が最も高い正確さ(81–82%)を示し、両者の情報が補完的であることを示した。
  • グローバルなグラフ特徴(例:コンponentサイズ、kコア、退化度)は、部分グラフ頻度のみを用いた場合より性能が悪く、正確さは69–76%であった。
  • 部分グラフ頻度の可能な領域は極値グラフ理論によって制限されており、その境界は扱いやすい線形計画法により計算可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。