Skip to main content
QUICK REVIEW

[论文解读] Learning Supervised PageRank with Gradient-Based and Gradient-Free Optimization Methods

Lev Bogolubsky, Pavel Dvurechensky|arXiv (Cornell University)|Mar 2, 2016
Optimization and Search Problems参考文献 16被引用 35
一句话总结

该论文提出了一种基于梯度和无梯度的优化方法,用于学习监督PageRank模型,解决了由于无法计算平稳分布导数而导致的非凸损失最小化问题。该方法在理论上建立了收敛性保证——无梯度方法在局部凸性下实现期望损失下降,基于梯度的方法在非凸性下实现驻点收敛,同时推导出最优超参数设置和复杂度边界。实验表明,该方法在性能上优于当前最先进方法。

ABSTRACT

In this paper, we consider a non-convex loss-minimization problem of learning Supervised PageRank models, which can account for some properties not considered by classical approaches such as the classical PageRank model. We propose gradient-based and random gradient-free methods to solve this problem. Our algorithms are based on the concept of an inexact oracle and unlike the state state-of-the-art gradient-based method we manage to provide theoretically the convergence rate guarantees for both of them. In particular, under the assumption of local convexity of the loss function, our random gradient-free algorithm guarantees decrease of the loss function value expectation. At the same time, we theoretically justify that without convexity assumption for the loss function our gradient-based algorithm allows to find a point where the stationary condition is fulfilled with a given accuracy. For both proposed optimization algorithms, we find the settings of hyperparameters which give the lowest complexity (i.e., the number of arithmetic operations needed to achieve the given accuracy of the solution of the loss-minimization problem). The resulting estimates of the complexity are also provided. Finally, we apply proposed optimization algorithms to the web page ranking problem and compare proposed and state-of-the-art algorithms in terms of the considered loss function.

研究动机与目标

  • 解决当无法精确计算平稳分布梯度时,学习监督PageRank参数的挑战。
  • 开发在平稳分布及其导数近似计算导致信息不精确的条件下仍能有效工作的优化算法。
  • 在非凸设置下,为基于梯度和无梯度方法提供理论收敛性保证。
  • 推导出能最小化计算复杂度(达到给定精度)的最优超参数设置。
  • 在真实网页排序任务上对所提方法进行实验评估,并与最先进方法进行比较。

提出的方法

  • 采用两级优化框架:下层通过幂方法计算不精确的梯度和函数值估计;上层应用迭代优化算法。
  • 采用不精确预言机模型,以处理损失函数及其梯度的不精确估计,从而在不确定性下实现收敛性分析。
  • 对基于梯度的算法应用Nesterov加速梯度法,并从理论上证明其在无凸性假设下仍能收敛至驻点。
  • 提出一种基于随机逼近的随机无梯度方法,证明在局部凸性下期望损失可实现下降。
  • 基于理论复杂度分析,推导出能最小化总算术运算次数的最优步长和迭代次数。
  • 使用幂方法及其导数扩展(Andrew, 1978, 1979)对下层进行平稳分布及其对参数敏感度的估计。

实验结果

研究问题

  • RQ1能否设计一种无梯度优化方法,用于非凸监督PageRank学习,且在损失函数局部凸性假设下保证期望损失下降?
  • RQ2能否在损失函数非凸且梯度不精确的条件下,从理论上证明基于梯度的方法可收敛至驻点?
  • RQ3何种超参数设置可使损失最小化达到给定精度时的计算复杂度(算术运算次数)最小化?
  • RQ4在真实世界网页排序数据上,所提方法与最先进算法相比,在收敛速度和最终损失值方面表现如何?
  • RQ5Nesterov–Nemirovski方法是否能在计算平稳分布方面优于标准幂方法?

主要发现

  • 所提无梯度方法在损失函数局部凸性假设下,保证了期望损失函数值的下降。
  • 基于梯度的方法即使在无凸性假设下,也能确保收敛至满足给定精度的驻点条件。
  • 对于无梯度方法,在强凸性条件下,期望损失以几何速率下降,收敛速率依赖于条件数和期望置信水平。
  • 通过精心选择的超参数,两种算法的计算复杂度均被最小化,且显式推导出以问题参数(如Lipschitz常数和定义域直径)表示的复杂度边界。
  • 在所有测试集上,无梯度方法(GFN)在最终损失值上均优于最先进基于梯度的方法,配对t检验的p值均小于0.005。
  • 基于梯度的方法(GBN)在其中一个测试集($Q_2^1$)上表现优于最先进方法,而在其他测试集上表现相当,且所需迭代次数显著更少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。