[论文解读] When is a Network a Network? Multi-Order Graphical Model Selection in Pathways and Temporal Networks
本文提出一个多阶图建模框架,将多个高阶马尔可夫模型整合为分层图,以捕捉路径的时间相关性,并提出一种有原则的模型选择方法来决定此类数据的最佳最大阶数。
We introduce a framework for the modeling of sequential data capturing pathways of varying lengths observed in a network. Such data are important, e.g., when studying click streams in information networks, travel patterns in transportation systems, information cascades in social networks, biological pathways or time-stamped social interactions. While it is common to apply graph analytics and network analysis to such data, recent works have shown that temporal correlations can invalidate the results of such methods. This raises a fundamental question: when is a network abstraction of sequential data justified? Addressing this open question, we propose a framework which combines Markov chains of multiple, higher orders into a multi-layer graphical model that captures temporal correlations in pathways at multiple length scales simultaneously. We develop a model selection technique to infer the optimal number of layers of such a model and show that it outperforms previously used Markov order detection techniques. An application to eight real-world data sets on pathways and temporal networks shows that it allows to infer graphical models which capture both topological and temporal characteristics of such data. Our work highlights fallacies of network abstractions and provides a principled answer to the open question when they are justified. Generalizing network representations to multi-order graphical models, it opens perspectives for new data mining and knowledge discovery algorithms.
研究动机与目标
- 动机并量化在图上的序列数据中,标准网络(第一阶)抽象何时不足。
- 引入一个多阶图建模框架,将跨层的高阶马尔可夫模型结合起来。
- 开发一个有原则的模型选择方法,以推断给定数据集的最佳最大阶数 K。
- 证明高阶建模能够捕获标准网络方法所遗漏的时间相关性。
- 展示该框架如何改进顶点排序和中心性计算等分析任务。
提出的方法
- 在图上定义阶数为 k 的高阶马尔可夫链,并描述其转移概率。
- 通过将层 M_k(k = 0,...,K)组合成一个多层模型 bar{M}_K ,构建多阶图模型。
- 为一组观测路径 S 定义多阶似然 L(bar{M}_K|S ),并用于模型拟合。
- 提出一种模型选择方法,使用嵌套模型 bar{M}_K 和 Wilks 定理来检验是否需要额外的高阶层。
- 利用图拓扑来计算自由度以考虑有效路径,从而改进标准的高阶模型准则。
- 将 PageRank 广义到更高阶的图 G^{(k)},并将高阶 PageRank 投影回第一阶顶点以进行评估。
实验结果
研究问题
- RQ1何时一阶网络足以对图上的序列路径数据进行建模?
- RQ2给定一组观测到的路径,如何推断多阶图模型的最佳最大阶数 K?
- RQ3在图上的路径数据中,高阶模型是否能在统计上相比于标准的阶数检测方法(AIC/BIC)提供更有说服力的改进?
- RQ4通过结合时间相关性,该框架是否可以改进诸如顶点排序的网络分析任务?
- RQ5如何利用高阶表示将图分析推广,以同时捕捉拓扑和时间特征?
主要发现
- 多阶建模框架通过将高阶马尔可夫层组合成多层图,在多个长度尺度上捕捉时间相关性。
- 提出的阶数检测方法使用嵌套和 Wilks 定理,通过比较嵌套模型并计算 p 值来确定最优最大阶 K_opt。
- 实验表明,在合成数据中,MOG 方法在比 AIC/BIC 更小的样本量下就能恢复真实的马尔可夫阶,并且在某些条件下需要的样本量要少得多。
- 该方法在确定自由度时考虑图拓扑,缓解过拟合并解决稀疏性问题。
- 将高阶 PageRank 广义到 G^{(k)} 与真实访问概率高度一致,使顶点排序能够体现时间相关性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。