Skip to main content
QUICK REVIEW

[论文解读] Higher-Order Factorization Machines

Mathieu Blondel, Akinori Fujino|arXiv (Cornell University)|Jul 25, 2016
Face and Expression Recognition参考文献 19被引用 51
一句话总结

本论文通过与ANOVA核的关联,首次提出了高效训练高阶因子分解机(HOFM)的算法,实现了预测和梯度计算的线性时间动态规划。论文引入了共享参数变体(HOFM-shared-augmented 和 HOFM-shared-simplex),在保持高精度的同时显著减少了模型大小和推理时间,在四个链接预测任务中取得了最先进(SOTA)的AUC得分。

ABSTRACT

Factorization machines (FMs) are a supervised learning approach that can use second-order feature combinations even when the data is very high-dimensional. Unfortunately, despite increasing interest in FMs, there exists to date no efficient training algorithm for higher-order FMs (HOFMs). In this paper, we present the first generic yet efficient algorithms for training arbitrary-order HOFMs. We also present new variants of HOFMs with shared parameters, which greatly reduce model size and prediction times while maintaining similar accuracy. We demonstrate the proposed approaches on four different link prediction tasks.

研究动机与目标

  • 解决高阶因子分解机(HOFM)缺乏高效训练算法的问题,后者因计算成本过高而长期难以实用化。
  • 通过与ANOVA核的关联,实现任意阶HOFM的训练,使预测和梯度计算得以高效进行。
  • 通过引入具有共享参数的新HOFM变体,降低模型复杂度和推理时间,同时不牺牲预测性能。
  • 在真实世界的链接预测任务中验证所提方法的有效性,展示其在更高阶情况下的泛化能力和鲁棒性。
  • 提供可扩展的优化算法(随机梯度和坐标下降),其时间复杂度在特征数量和模型阶数上均为线性。

提出的方法

  • 利用ANOVA核对HOFM进行公式化,使多项式展开可通过线性时间动态规划算法高效计算。
  • 设计一种线性时间动态规划算法,用于评估ANOVA核及其梯度,这对高效优化至关重要。
  • 开发用于训练HOFM的随机梯度和坐标下降算法,其时间复杂度在特征数量和模型阶数上均为线性。
  • 提出两种具有共享参数的新HOFM变体:HOFM-shared-augmented(使用扩展特征空间)和HOFM-shared-simplex(使用基于单纯形的参数共享),以减少参数数量和推理时间。
  • 在共享变体中,所有特征交互阶数共用同一参数矩阵,显著降低模型大小,同时保持表达能力。
  • 在标准评估指标(AUC)下,将算法应用于链接预测任务,通过交叉验证选择超参数,并采用一致的初始化策略。

实验结果

研究问题

  • RQ1我们能否设计一种高效训练算法,用于任意阶HOFM,避免特征交互的组合爆炸?
  • RQ2如何在不牺牲或提升模型精度的前提下,减少HOFM中的参数数量和预测时间?
  • RQ3共享参数设计对不同链接预测任务中的模型性能和可扩展性有何影响?
  • RQ4与AdaGrad和L-BFGS等标准求解器相比,所提算法在收敛速度和稳定性方面表现如何?
  • RQ5在HOFM中增加特征交互阶数是否能持续提升预测性能?

主要发现

  • 所提出的HOFM模型在四个链接预测数据集中的三个上取得了最高AUC得分(NIPS、Enzyme、Movielens 100K),在m=3时,NIPS数据集上AUC达0.875,Enzyme数据集上达0.888。
  • HOFM-shared-augmented变体在参数数量显著减少且推理速度更快的同时,性能与标准HOFM相当(例如,m=4时NIPS数据集AUC为0.874)。
  • HOFM-shared-simplex变体相比HOFM-shared-augmented表现较差,尤其在大规模数据集上,表明其参数共享机制效果较差。
  • 对于m ≤ 3,坐标下降算法优于L-BFGS和AdaGrad;但对于m ≥ 4,L-BFGS因收敛行为更优而表现更佳。
  • AdaGrad对学习率高度敏感,当η ≥ 0.01时发散,需将η设为0.001才能收敛,尽管其每轮计算成本较低。
  • HOFM模型对阶数m的增加具有鲁棒性,在大多数数据集上,AUC得分从m=2到m=5保持稳定或略有提升,表明每阶的正则化效果有效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。