Skip to main content
QUICK REVIEW

[論文レビュー] When is a Network a Network? Multi-Order Graphical Model Selection in Pathways and Temporal Networks

Ingo Scholtes|arXiv (Cornell University)|Feb 17, 2017
Complex Network Analysis Techniques参考文献 10被引用数 53
ひとこと要約

本論文は、複数の高次マルコフモデルを層状グラフに組み合わせて経路の時間的相関を捉える多階層グラフモデリングフレームワークを提案し、そのデータに対する最適な最大次数を決定する principled なモデル選択手法を導入します。

ABSTRACT

We introduce a framework for the modeling of sequential data capturing pathways of varying lengths observed in a network. Such data are important, e.g., when studying click streams in information networks, travel patterns in transportation systems, information cascades in social networks, biological pathways or time-stamped social interactions. While it is common to apply graph analytics and network analysis to such data, recent works have shown that temporal correlations can invalidate the results of such methods. This raises a fundamental question: when is a network abstraction of sequential data justified? Addressing this open question, we propose a framework which combines Markov chains of multiple, higher orders into a multi-layer graphical model that captures temporal correlations in pathways at multiple length scales simultaneously. We develop a model selection technique to infer the optimal number of layers of such a model and show that it outperforms previously used Markov order detection techniques. An application to eight real-world data sets on pathways and temporal networks shows that it allows to infer graphical models which capture both topological and temporal characteristics of such data. Our work highlights fallacies of network abstractions and provides a principled answer to the open question when they are justified. Generalizing network representations to multi-order graphical models, it opens perspectives for new data mining and knowledge discovery algorithms.

研究の動機と目的

  • グラフ上の逐次データに対して標準的なネットワーク(1階)抽象化が不十分であることを動機づけ、定量化する。
  • 層を跨いで高次マルコフモデルを組み合わせる多階層グラフモデリングフレームワークを導入する。
  • 与えられたデータセットに対して最適な最大次数 K を推定する principled なモデル選択法を開発する。
  • 高次モデル化が標準的なネットワーク手法では捉えられない時間的相関を捉えることを実証する。
  • フレームワークが頂点ランキングや中心性計算といった分析タスクを改善することを示す。

提案手法

  • グラフ上の次数 k の高次マルコフ連鎖を定義し、それらの遷移確率を記述する。
  • k = 0,...,K に対する層 M_k を組み合わせて多層モデル bar{M}_K を構築する。
  • 観測経路集合 S に対する多階層尤度 L(bar{M}_K|S ) を定義し、モデル適合のために利用する。
  • 追加の高次層の必要性を検定するために嵌套モデル bar{M}_K を用いるモデル選択アプローチと Wilks の定理を提案する。
  • 自由度をグラフのトポロジーを用いて計算し、正当な経路を考慮することで標準の高次モデル基準より過剰適合を抑制する。
  • PageRank を高次グラフ G^{(k)} に一般化し、評価のために高次 PageRank を一次元の頂点に投影して用いる。

実験結果

リサーチクエスチョン

  • RQ1グラフ上の逐次経路データをモデル化する際、1階ネットワークは十分であるか。
  • RQ2観測された経路集合に対して多階層グラフモデルの最適な最大次数 K をどのように推定できるか。
  • RQ3高次モデルはグラフ上の経路データに対して標準の次数検出法(AIC/BIC)より統計的に principled な改善を提供するか。
  • RQ4このフレームワークは時間的相関を組み込むことで頂点ランキングなどのネットワーク解析タスクを改善できるか。
  • RQ5高次表現を用いてグラフ解析を一般化し、位相と時間的特徴の両方を捉えることができるか。

主な発見

  • 多階層モデリングフレームワークは、高次マルコフ層を組み合わせた多層グラフとして複数の長さのスケールで時間的相関を捉える。
  • 提案された次元検出法は嵌套モデルと Wilks の定理を用いて最適な最大次数 K_opt を、ネストしたモデルを比較し p 値を計算して決定する。
  • 実験は、合成データにおいて MOG アプローチが真のマルコフ次数を AIC/BIC より小さなサンプルサイズで復元し、条件によってははるかに少ないサンプルで済むことを示す。
  • グラフのトポロジーを自由度の決定に組み込むことで過剰適合を緩和し、スパース性の問題にも対処する。
  • 高次 PageRank を G^{(k)} に一般化すると、地上真の訪問確率とよく一致し、時間的相関を反映した principled な頂点ランキングを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。