Skip to main content
QUICK REVIEW

[论文解读] Infinite Tucker Decomposition: Nonparametric Bayesian Models for Multiway Data Analysis

Zenglin Xu, Feng Yan|arXiv (Cornell University)|Aug 31, 2011
Tensor decomposition and applications参考文献 15被引用 29
一句话总结

本文提出 InfTucker,一种非参数贝叶斯张量分解框架,通过使用具有非线性协方差函数的张量变量高斯或 t 过程来建模多维数据,实现无限维特征学习。该方法在化学计量学和稀疏二值社交网络数据集上,通过在概率框架内联合处理噪声、缺失数据和多种数据类型,实现了显著优于最先进方法的预测精度,结合高效的变分推断。

ABSTRACT

Tensor decomposition is a powerful computational tool for multiway data analysis. Many popular tensor decomposition approaches---such as the Tucker decomposition and CANDECOMP/PARAFAC (CP)---amount to multi-linear factorization. They are insufficient to model (i) complex interactions between data entities, (ii) various data types (e.g. missing data and binary data), and (iii) noisy observations and outliers. To address these issues, we propose tensor-variate latent nonparametric Bayesian models, coupled with efficient inference methods, for multiway data analysis. We name these models InfTucker. Using these InfTucker, we conduct Tucker decomposition in an infinite feature space. Unlike classical tensor decomposition models, our new approaches handle both continuous and binary data in a probabilistic framework. Unlike previous Bayesian models on matrices and tensors, our models are based on latent Gaussian or $t$ processes with nonlinear covariance functions. To efficiently learn the InfTucker from data, we develop a variational inference technique on tensors. Compared with classical implementation, the new technique reduces both time and space complexities by several orders of magnitude. Our experimental results on chemometrics and social network datasets demonstrate that our new models achieved significantly higher prediction accuracy than the most state-of-art tensor decomposition

研究动机与目标

  • 解决经典张量分解模型的局限性,如无法建模复杂非线性交互作用、存在噪声观测、缺失数据以及非连续数据类型。
  • 开发一个统一的概率框架,通过适当的似然函数自然处理连续、二值和缺失数据。
  • 利用非参数贝叶斯方法在无限维特征空间中实现 Tucker 分解。
  • 设计一种高效的变分推断技术,将大规模张量数据的时空复杂度降低几个数量级。
  • 在真实世界的化学计量学和社交网络数据集上,展示其预测性能优于最先进张量分解方法。

提出的方法

  • 提出 InfTucker 作为基于张量变量高斯或 t 过程的非参数贝叶斯模型,用于多维数据分析。
  • 使用非线性协方差函数(如指数函数)来建模张量模式之间的复杂非线性交互作用。
  • 采用概率生成模型,假设观测张量是具有核心张量和因子矩阵的随机过程的实现。
  • 开发一种新颖的变分推断方法,利用张量结构降低计算复杂度,实现对更大规模数据集的可扩展性。
  • 在统一框架内应用不同的似然函数(高斯、伯努利)处理连续和二值数据类型。
  • 使用变分贝叶斯近似潜在变量的后验分布,实现高效学习和不确定性量化。

实验结果

研究问题

  • RQ1非参数贝叶斯框架能否有效建模多维数据中多个模式之间的复杂非线性交互作用?
  • RQ2张量分解如何在统一的概率模型中扩展以处理缺失数据、噪声观测和混合数据类型(连续与二值)?
  • RQ3能否在具有非线性协方差函数的非参数贝叶斯模型中,实现大规模张量分解的高效推断?
  • RQ4在真实世界数据集上,所提出的 InfTucker 模型与经典和最先进张量分解方法相比,其预测准确性如何?
  • RQ5与高斯过程相比,使用重尾 t 过程是否能提升张量分解对异常值和噪声的鲁棒性?

主要发现

  • 在化学计量学和社交网络数据集上,使用高斯过程的 InfTucker(InfTucker^gp)显著优于所有基线方法,均方误差更低。
  • 使用 t 过程的 InfTucker(InfTucker^tp)在大多数情况下进一步优于 InfTucker^gp,尤其在存在噪声或异常值的数据中,得益于 t 分布的重尾特性。
  • 在二值社交网络数据集(Enron、Digg1、Digg2)上,InfTucker^gp 和 InfTucker^tp 的曲线下面积(AUC)值高于 CP、TD 和 WCP,后三者因最小二乘法最小化导致过拟合和零值预测而表现不佳。
  • 所提出的变分推断方法相比经典实现,将时间和空间复杂度降低了几个数量级,使大规模数据集上的高效学习成为可能。
  • 该模型对缺失数据和噪声表现出鲁棒性,通过后验分布量化预测不确定性,优于缺乏此类置信度估计的非概率方法。
  • 交叉验证表明,化学计量学数据集的最优潜在因子数为 r=3,且 InfTucker 在社交网络数据集上对不同 r 值均保持优越性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。