Skip to main content
QUICK REVIEW

[论文解读] Expectation-Maximization for Learning Determinantal Point Processes

Jennifer Gillenwater, Alex Kulesza|arXiv (Cornell University)|Nov 4, 2014
Point processes and geometric inequalities参考文献 29被引用 36
一句话总结

该论文提出了一种受期望最大化(EM)启发的算法,通过将核矩阵的特征值和特征向量作为参数,实现对确定性点过程(DPP)完整核矩阵的学习。通过利用特征分解并推导出对数似然的可处理下界,该方法避免了投影梯度上升方法中存在的数值不稳定性与退化问题,在真实世界的产品推荐任务中,测试对数似然最高提升了16.5%。

ABSTRACT

A determinantal point process (DPP) is a probabilistic model of set diversity compactly parameterized by a positive semi-definite kernel matrix. To fit a DPP to a given task, we would like to learn the entries of its kernel matrix by maximizing the log-likelihood of the available data. However, log-likelihood is non-convex in the entries of the kernel matrix, and this learning problem is conjectured to be NP-hard. Thus, previous work has instead focused on more restricted convex learning settings: learning only a single weight for each row of the kernel matrix, or learning weights for a linear combination of DPPs with fixed kernel matrices. In this work we propose a novel algorithm for learning the full kernel matrix. By changing the kernel parameterization from matrix entries to eigenvalues and eigenvectors, and then lower-bounding the likelihood in the manner of expectation-maximization algorithms, we obtain an effective optimization procedure. We test our method on a real-world product recommendation task, and achieve relative gains of up to 16.5% in test log-likelihood compared to the naive approach of maximizing likelihood by projected gradient ascent on the entries of the kernel matrix.

研究动机与目标

  • 为解决在DPP中学习完整正半定核矩阵的挑战,该问题为非凸问题,且推测为NP难问题。
  • 克服先前方法的局限性,这些方法仅将每行的标量权重或DPP的固定线性组合作为学习对象。
  • 开发一种稳健的优化过程,避免梯度上升中因投影步骤导致的退化解。
  • 实现在保持计算效率的同时,对DPP核矩阵进行无约束的非参数化学习。
  • 通过利用特征分解与EM风格优化,在真实世界推荐任务中提升测试对数似然。

提出的方法

  • 通过其特征值 $ \Lambda $ 和特征向量 $ V $ 参数化DPP核矩阵 $ L $,从而对似然目标进行重参数化。
  • 通过利用当前 $ V $ 和 $ \Lambda $ 的估计值,构建对数似然的下界,应用EM风格算法。
  • 在E步中,基于当前参数计算完整数据对数似然的期望值。
  • 在M步中,通过利用矩阵导数推导出的闭式更新,针对 $ \Lambda $ 和 $ V $ 优化该下界。
  • 通过使用更小的 $ |Y_i| \times |Y_i| $ 矩阵 $ H^{Y_i} = V_{Y_i} R^2 V_{Y_i}^\top $ 高效计算 $ V $ 的梯度,降低计算复杂度。
  • 利用特征分解天然保持正半定性,从而消除导致退化的投影步骤。

实验结果

研究问题

  • RQ1能否设计一种EM风格算法,在不依赖投影步骤的前提下学习完整的DPP核矩阵?
  • RQ2将核矩阵以特征值和特征向量参数化,是否能带来比直接对矩阵元素进行梯度上升更稳定、更有效的优化?
  • RQ3所提方法在真实世界子集选择任务中是否能实现高于基线方法的测试对数似然?
  • RQ4在低数据设置或初始化不佳的情况下,该方法表现如何?
  • RQ5与梯度上升相比,EM方法是否能更好地保持项目间诱导多样性的负向交互?

主要发现

  • 所提EM方法在真实世界产品推荐任务中,与投影梯度上升相比,测试对数似然最高提升了16.5%。
  • 该方法避免了梯度上升中常见的退化解——由于投影导致的近似对角核矩阵,从而造成多样性建模性能下降。
  • 该算法在渐近意义下比梯度上升更快,且对初始化和数据集变化更具鲁棒性。
  • 在低数据设置中,该方法保持了强劲性能,使用矩匹配初始化时,中位数相对增益达4.55%。
  • 利用特征分解可实现多项式时间内的精确第一梯度步长计算,复杂度为 $ O(nNk^2) $,其中 $ k $ 为最大观测子集的大小。
  • 该方法成功建模了项目间的负向交互,这对DPP在子集选择中实现多样性至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。