Skip to main content
QUICK REVIEW

[论文解读] Graph Estimation From Multi-attribute Data

Mladen Kolar, Han Liu|PubMed|Oct 29, 2012
Bioinformatics and Genomic Networks参考文献 47被引用 34
一句话总结

该论文提出了一种新颖的框架,通过建模偏典型相关性而非传统的偏相关性,从多属性数据中估计图形模型,从而在高维设置下实现一致的图恢复。该方法采用结构化的惩罚似然方法,计算高效,并在从复杂高维节点特征中估计基因调控网络和脑功能网络方面表现出色。

ABSTRACT

Undirected graphical models are important in a number of modern applications that involve exploring or exploiting dependency structures underlying the data. For example, they are often used to explore complex systems where connections between entities are not well understood, such as in functional brain networks or genetic networks. Existing methods for estimating structure of undirected graphical models focus on scenarios where each node represents a scalar random variable, such as a binary neural activation state or a continuous mRNA abundance measurement, even though in many real world problems, nodes can represent multivariate variables with much richer meanings, such as whole images, text documents, or multi-view feature vectors. In this paper, we propose a new principled framework for estimating the structure of undirected graphical models from such multivariate (or multi-attribute) nodal data. The structure of a graph is inferred through estimation of non-zero partial canonical correlation between nodes. Under a Gaussian model, this strategy is equivalent to estimating conditional independencies between random vectors represented by the nodes and it generalizes the classical problem of covariance selection (Dempster, 1972). We relate the problem of estimating non-zero partial canonical correlations to maximizing a penalized Gaussian likelihood objective and develop a method that efficiently maximizes this objective. Extensive simulation studies demonstrate the effectiveness of the method under various conditions. We provide illustrative applications to uncovering gene regulatory networks from gene and protein profiles, and uncovering brain connectivity graph from positron emission tomography data. Finally, we provide sufficient conditions under which the true graphical structure can be recovered correctly.

研究动机与目标

  • 解决现有图估计方法无法处理基因表达谱或fMRI体素数据等多属性节点特征的问题。
  • 开发一种系统性的框架,通过偏典型相关性而非单变量偏相关性来建模条件独立性。
  • 为在具有多属性节点的高维设置下实现一致图恢复提供理论保证。
  • 设计一种利用数据多属性结构的高效计算算法。
  • 通过在基因调控网络和fMRI数据的功能脑连接性中的应用,展示该方法的实用性。

提出的方法

  • 构建一个高斯图形模型,其中每个节点由属性的多变量向量表示,而非单变量值。
  • 引入一种惩罚似然方法,通过在典型相关性块上施加组lasso惩罚来估计堆叠多变量向量的精度矩阵,从而实现稀疏性。
  • 使用块坐标下降算法高效求解优化问题,利用多属性结构实现计算可扩展性。
  • 应用稳定性选择与子采样方法,提高边选择的可靠性并减少假阳性。
  • 推导出该方法在节点属性数量变化时仍能一致恢复真实图结构的理论条件。
  • 采用K-中位数聚类将体素级fMRI数据降维为每个脑区的代表性特征,同时保留空间信息。

实验结果

研究问题

  • RQ1能否开发一种系统性的图形模型框架,用于从多属性节点数据(如基因表达和蛋白质谱)中估计网络?
  • RQ2当每个节点具有高维属性向量而非单个值时,如何建模条件独立关系?
  • RQ3在该多属性设置下,实现一致图恢复的充分理论条件是什么?
  • RQ4与标准图形lasso相比,该方法在真实世界生物和神经影像数据上的性能和可解释性如何?
  • RQ5该方法能否在不将特征聚合为汇总统计量的情况下,从未简化为摘要统计量的复杂高维节点特征中揭示有意义的生物和神经网络结构?

主要发现

  • 所提出的方法在高维设置下成功恢复了真实图结构,理论条件确保了一致恢复。
  • 在功能脑网络应用中,健康受试者的估计网络有116条边,而阿尔茨海默病与痴呆患者仅有59条边,表明显著的连接性丧失。
  • 该方法识别出阿尔茨海默病患者小脑区域连接性降低,与先前文献一致。
  • 观察到阿尔茨海默病患者额叶与其他区域之间的连接性增加,提示可能存在代偿机制。
  • 稳定性选择程序识别出可靠的边,至少95%的子采样子网络在最终边集中达成一致。
  • 该方法优于朴素的单变量方法,通过保留多属性信息避免了特征的损失性聚合。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。