[论文解读] Robust Bayesian Tensor Factorization for Incomplete Multiway Data.
该论文提出了一种鲁棒的贝叶斯张量分解方法,通过层次化先验和变分推断,联合建模不完整多路数据中的低秩与稀疏分量。该方法可实现无需超参数调优的自动秩确定与异常值检测,在合成数据集和真实世界数据集上均实现了优异的张量补全性能与鲁棒性。
Abstract—We propose a generative model for robust tensor factorization in the presence of both missing data and outliers. The objective is to explicitly infer the underlying low-CP-rank tensor capturing the global information and a sparse tensor capturing the local information (also considered as outliers), thus providing the robust predictive distribution over missing entries. The low-CP-rank tensor is modeled by multilinear interactions between multiple latent factors on which the column sparsity is enforced by a hierarchical prior, while the sparse tensor is modeled by a hierarchical view of Student-t distribution that associates an individual hyperparameter with each element independently. For model learning, we develop an efficient closed-form variational inference under a fully Bayesian treatment, which can effectively prevent the overfitting problem and scales linearly with data size. In contrast to existing related works, our method can perform model selection automatically and implicitly without need of tuning parameters. More specifically, it can discover the groundtruth of CP rank and automatically adapt the sparsity inducing priors to various types of outliers. In addition, the tradeoff between the low-rank approximation and the sparse representation can be optimized in the sense of maximum model evidence. The extensive experiments and comparisons with many state-of-the-art algorithms on both synthetic and real-world datasets demonstrate the superiorities of our method from several perspectives. Index Terms—Tensor factorization, tensor completion, robust factorization, rank determination, variational Bayesian inference, video background modeling F 1
研究动机与目标
- 解决在存在缺失数据和异常值情况下的鲁棒张量分解挑战。
- 显式分离张量数据中的全局低秩结构与局部稀疏异常值。
- 在无需人工调优的情况下,实现CP秩与稀疏性诱导超参数的自动模型选择。
- 提供一个完全贝叶斯框架,防止过拟合并实现与数据规模线性可扩展的性能。
- 通过最大模型证据优化低秩逼近与稀疏表示之间的权衡。
提出的方法
- 利用潜因子之间的多线性交互建模低-CP-秩张量,并通过层次化先验强制列稀疏性。
- 通过每个元素独立的超参数设置层次化学生t分布来表示稀疏张量,以实现对异常值的鲁棒建模。
- 采用闭式变分推断,在完整生成建模下实现高效且可扩展的贝叶斯推断。
- 通过边缘似然最大化实现自动秩发现,避免人工参数调优。
- 采用完全贝叶斯处理方式以正则化学习过程,并在不完整数据上提升泛化能力。
- 通过最大化模型证据优化低秩与稀疏分量之间的平衡。
实验结果
研究问题
- RQ1贝叶斯张量分解模型是否能自动确定真实CP秩而无需先验知识?
- RQ2该模型在不完整多路数据中,能否有效分离全局低秩结构与局部异常值?
- RQ3在缺失数据与数据污染条件下,该方法在张量补全任务中相较于最先进方法的性能优势有多大?
- RQ4通过自动稀疏性诱导,模型能否适应多种类型的异常值?
- RQ5变分推断框架在保持鲁棒性的同时,是否能随数据规模高效扩展?
主要发现
- 在合成实验中,该方法无需手动调优秩参数即可自动发现真实CP秩。
- 在包含缺失条目的合成数据集和真实世界数据集上,其张量补全精度优于最先进方法。
- 该模型能有效识别并隔离异常值,从而在存在严重数据污染的情况下提升预测性能。
- 变分推断框架与数据规模呈线性扩展,可在大规模张量上实现高效学习。
- 通过模型证据优化低秩与稀疏分量之间的权衡,实现更好的泛化性能。
- 层次化学生t先验实现自适应异常值检测,优于固定惩罚或基于高斯的方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。