[论文解读] Tensor Train polynomial models via Riemannian optimization
本文提出指数机器(Exponential Machines, ExM),一种基于张量的模型,利用张量列车(Tensor Train, TT)格式捕捉所有阶次的特征交互,以压缩指数级庞大的参数张量。通过采用随机黎曼优化,ExM能够高效训练高达 2^30 个参数的高阶交互模型,在具有复杂交互结构的合成数据上达到最先进性能。
Modeling interactions between features improves the performance of machine learning solutions in many domains (e.g. recommender systems or sentiment analysis). In this paper, we introduce Exponential Machines (ExM), a predictor that models all interactions of every order. The key idea is to represent an exponentially large tensor of parameters in a factorized format called Tensor Train (TT). The Tensor Train format regularizes the model and lets you control the number of underlying parameters. To train the model, we develop a stochastic version of Riemannian optimization, which allows us to fit tensors with $2^{30}$ entries. We show that the model achieves state-of-the-art performance on synthetic data with high-order interactions.
研究动机与目标
- 为解决机器学习中高阶特征交互建模的挑战,此类交互在推荐系统和情感分析等任务中至关重要。
- 降低全交互模型的计算与参数复杂度,避免其随特征维度呈指数增长。
- 开发一种可扩展的优化框架,能够高效训练具有数十亿参数的大型张量结构化模型。
- 在具有已知高阶交互结构的合成数据上,验证所提方法的有效性。
提出的方法
- 模型使用张量列车(TT)格式表示所有特征交互,将高维张量分解为一系列低秩分量。
- TT格式天然具有正则化作用,并可通过选择秩来控制参数数量。
- 采用随机黎曼优化训练TT参数,以保持参数空间的流形结构。
- 优化框架支持对大规模张量的高效更新,使高达 2^30 个条目规模的模型训练成为可能。
- 该方法利用黎曼几何在随机更新过程中保持参数一致性,提升收敛性与稳定性。
实验结果
研究问题
- RQ1是否存在一种参数高效的模型,能够在不带来计算成本激增的前提下捕捉所有阶次的特征交互?
- RQ2张量列车格式在正则化高阶交互模型的同时,是否能有效维持预测性能?
- RQ3随机黎曼优化能否可扩展地训练参数规模超过百亿的模型?
- RQ4所提出的ExM模型是否在具有已知高阶交互结构的合成数据上优于现有方法?
主要发现
- 指数机器(ExM)模型在具有高阶特征交互的合成数据集上达到最先进性能。
- 该模型成功利用随机黎曼优化框架训练了规模高达 2^30 的张量。
- 张量列车格式实现了有效的正则化,即使在模型表达能力强的情况下也有效防止了过拟合。
- 所提出的优化方法能高效扩展至大规模交互模型,展现出实际可行性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。