[论文解读] All-at-once Optimization for Coupled Matrix and Tensor Factorizations
本文提出CMTF-OPT,一种用于耦合矩阵与张量分解(CMTF)的新型一次性优化方法,通过基于梯度的方法同时优化所有因子矩阵,在不完整数据场景下相比传统交替最小二乘法(ALS)展现出更高的准确性和对过因子化的鲁棒性。
Joint analysis of data from multiple sources has the potential to improve our understanding of the underlying structures in complex data sets. For instance, in restaurant recommendation systems, recommendations can be based on rating histories of customers. In addition to rating histories, customers' social networks (e.g., Facebook friendships) and restaurant categories information (e.g., Thai or Italian) can also be used to make better recommendations. The task of fusing data, however, is challenging since data sets can be incomplete and heterogeneous, i.e., data consist of both matrices, e.g., the person by person social network matrix or the restaurant by category matrix, and higher-order tensors, e.g., the "ratings" tensor of the form restaurant by meal by person. In this paper, we are particularly interested in fusing data sets with the goal of capturing their underlying latent structures. We formulate this problem as a coupled matrix and tensor factorization (CMTF) problem where heterogeneous data sets are modeled by fitting outer-product models to higher-order tensors and matrices in a coupled manner. Unlike traditional approaches solving this problem using alternating algorithms, we propose an all-at-once optimization approach called CMTF-OPT (CMTF-OPTimization), which is a gradient-based optimization approach for joint analysis of matrices and higher-order tensors. We also extend the algorithm to handle coupled incomplete data sets. Using numerical experiments, we demonstrate that the proposed all-at-once approach is more accurate than the alternating least squares approach.
研究动机与目标
- 解决异构数据源(矩阵和高阶张量)融合为统一潜在结构发现框架的挑战。
- 通过提出一种同时优化策略,克服传统CMTF中交替算法的局限性,避免局部最优并改善收敛性。
- 通过将优化框架扩展以支持张量和矩阵中的缺失值,处理不完整数据集。
- 在推荐系统和医疗数据融合等实际应用中,提升模型的可解释性和准确性。
提出的方法
- 将CMTF问题表述为使用CP模型对张量和矩阵分解进行所有因子矩阵的联合最小二乘优化。
- 开发一种基于梯度的优化算法CMTF-OPT,与传统顺序更新不同,实现所有因子矩阵的同时更新。
- 提出CMTF-WOPT作为扩展方法,通过在损失函数中对观测条目加权,以处理不完整数据。
- 使用Frobenius范数度量张量和矩阵的重构误差,实现统一的目标函数。
- 采用一阶优化技术结合线搜索,确保参数更新过程中的收敛性和稳定性。
- 通过将目标函数推广以包含共享公共因子矩阵的多个矩阵和张量,支持多个耦合数据集。
实验结果
研究问题
- RQ1一次性优化策略是否在准确性和对过因子化的鲁棒性方面优于传统的交替最小二乘法(ALS)?
- RQ2当组件数R被高估时(即过因子化),所提出的CMTF-OPT方法表现如何?
- RQ3CMTF-OPT算法在张量和矩阵中存在缺失条目时,能多大程度上处理不完整数据集?
- RQ4所有因子矩阵的同时优化是否能带来更好的收敛性并降低对初始化的敏感性,相比交替方法?
- RQ5不同的损失函数和约束(如非负性)如何影响CMTF模型的性能和可解释性?
主要发现
- 在合成数据中,当η = 0.10时,CMTF-OPT在秩R下实现了100%的成功率恢复真实分解,而ALS为90.0%。
- 在R+1个组件时,CMTF-OPT保持高准确率(FMS为96.7%)和低误差(3.3e-1),而ALS下降至3.3%的成功率。
- 当η = 0.25时,CMTF-OPT在R+1秩下实现86.7%的FMS,误差可忽略(6.4e-9),而ALS仅得13.3%的成功率。
- 在存在缺失数据(η = 0.35)时,CMTF-OPT在R+1秩下保持46.7%的FMS,误差极小(1.7e-9),显著优于ALS(6.7%的成功率)。
- 一次性方法在过因子化方面表现出更优的鲁棒性,在R被高估时仍保持稳定性能。
- 数值实验证实,基于梯度的一次性优化比交替最小二乘法更准确、更可靠,尤其在不完整数据环境中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。