Skip to main content
QUICK REVIEW

[论文解读] Macau: Scalable Bayesian Multi-relational Factorization with Side Information using MCMC

Jaak Simm, Ádám Arany|arXiv (Cornell University)|Sep 15, 2015
Topic Modeling参考文献 6被引用 23
一句话总结

澳门提出了一种可扩展的贝叶斯多关系因子分解方法,通过MCMC采样整合了旁支信息(实体和关系特征),实现了在包含数百万个实体和观测值的大规模稀疏数据上的高效推理。该方法通过注入噪声的吉布斯采样进行特征推断,在药物-蛋白质活性预测和矩阵因子分解基准测试中实现了最先进性能。

ABSTRACT

We propose Macau, a powerful and flexible Bayesian factorization method for heterogeneous data. Our model can factorize any set of entities and relations that can be represented by a relational model, including tensors and also multiple relations for each entity. Macau can also incorporate side information, specifically entity and relation features, which are crucial for predicting sparsely observed relations. Macau scales to millions of entity instances, hundred millions of observations, and sparse entity features with millions of dimensions. To achieve the scale up, we specially designed sampling procedure for entity and relation features that relies primarily on noise injection in linear regressions. We show performance and advanced features of Macau in a set of experiments, including challenging drug-protein activity prediction task.

研究动机与目标

  • 开发一个统一的贝叶斯框架用于多关系因子分解,支持张量、多种关系和旁支信息。
  • 将贝叶斯因子分解扩展至包含数百万个实体、上亿个观测值和高维稀疏特征的数据集。
  • 通过基于原理的概率方法整合实体和关系特征,提升在稀疏观测关系中的预测性能。
  • 通过噪声注入和并行化采样过程,实现在大规模数据上的高效MCMC推理。

提出的方法

  • 澳门将数据建模为超图,其中实体作为节点,关系作为超边,支持张量和成对实体的多种关系。
  • 采用完整的贝叶斯层次模型,对潜在因子使用共轭先验,对均值和精度矩阵使用超先验。
  • 提出一种新颖的噪声注入吉布斯采样程序,以高效采样高维实体和关系特征,尤其适用于稀疏场景。
  • 使用带共轭梯度求解器的迭代线性回归进行特征推断,支持在多核和多节点上的并行化。
  • 该框架支持密集和稀疏特征,对低维特征使用直接求解器,对高维稀疏特征使用共轭梯度法。
  • MCMC推理在潜在因子、特征系数和超参数上进行,通过完整后验采样实现不确定性量化。

实验结果

研究问题

  • RQ1贝叶斯多关系因子分解模型能否有效整合实体和关系特征,以提升在稀疏观测关系中的预测性能?
  • RQ2如何将基于MCMC的推理扩展至处理包含数百万个实体和观测值、且具有高维稀疏特征的数据?
  • RQ3在药物-蛋白质相互作用建模中,整合多种关系类型(如IC50和Ki)是否能提升预测性能?
  • RQ4在添加多种关系或特征时,潜在维度如何影响模型性能?
  • RQ5所提出的方法能否在真实世界的大规模数据集上超越现有最先进矩阵因子分解方法?

主要发现

  • 澳门在MovieLens基准测试中优于BPMF,尤其在稀疏观测关系中受益于旁支信息。
  • IC50+Ki模型(整合两种不同的生化相互作用类型)显著优于单关系IC50模型(p < 0.0001)。
  • IC50+Pheno模型(增加表型检测数据)在使用足够潜在维度(D ≥ 30)时,预测准确率优于仅使用IC50的模型。
  • 当D=10时,IC50+Pheno模型表现较差,表明在添加复杂关系时,潜在容量不足可能降低性能。
  • 在一个包含180万个化合物和1,000种蛋白质的大型工业数据集上,澳门使用15个节点在约600秒内完成1,000次吉布斯迭代,适用于高维稀疏特征(400万维,0.002%稀疏度)。
  • 对于中等维度的特征(F_e ≈ 6,000),在8个核心上完成一次完整吉布斯步骤耗时约40秒,证明了高效的并行化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。