Skip to main content
QUICK REVIEW

[論文レビュー] Learning Supervised PageRank with Gradient-Based and Gradient-Free Optimization Methods

Lev Bogolubsky, Pavel Dvurechensky|arXiv (Cornell University)|Mar 2, 2016
Optimization and Search Problems参考文献 16被引用数 35
ひとこと要約

本稿では、計算が困難な定常分布の微分に起因する不正確なオракル情報のもとでの非凸損失最小化に対処するため、Supervised PageRank モデルの学習に勾配ベースおよび勾配フリーの最適化手法を提案する。勾配フリー手法では局所的凸性のもとで期待損失の減少を保証し、勾配ベース手法では非凸性のもとで停留在点への収束を理論的に保証する。最適なハイパーパrameterと計算複雑性の上限を導出し、実験により最先端手法を上回る性能を示す。

ABSTRACT

In this paper, we consider a non-convex loss-minimization problem of learning Supervised PageRank models, which can account for some properties not considered by classical approaches such as the classical PageRank model. We propose gradient-based and random gradient-free methods to solve this problem. Our algorithms are based on the concept of an inexact oracle and unlike the state state-of-the-art gradient-based method we manage to provide theoretically the convergence rate guarantees for both of them. In particular, under the assumption of local convexity of the loss function, our random gradient-free algorithm guarantees decrease of the loss function value expectation. At the same time, we theoretically justify that without convexity assumption for the loss function our gradient-based algorithm allows to find a point where the stationary condition is fulfilled with a given accuracy. For both proposed optimization algorithms, we find the settings of hyperparameters which give the lowest complexity (i.e., the number of arithmetic operations needed to achieve the given accuracy of the solution of the loss-minimization problem). The resulting estimates of the complexity are also provided. Finally, we apply proposed optimization algorithms to the web page ranking problem and compare proposed and state-of-the-art algorithms in terms of the considered loss function.

研究の動機と目的

  • 定常分布の微分の正確な勾配が計算不能である状況下で、Supervised PageRank パrameter を学習する課題に対処すること。
  • 定常分布およびその微分の近似計算に起因する不正確なオラクル情報のもとで動作する最適化アルゴリズムの開発。
  • 非凸設定下において、勾配ベースおよび勾配フリー手法の理論的収束保証を提供すること。
  • 所望の精度に達するまでの計算複雑性(算術演算の数)を最小化する最適なハイパーパrameter設定を導出すること。
  • 実世界のウェブページランクタスクにおいて、提案手法を最先端手法と比較して実験的に評価すること。

提案手法

  • 二段階最適化フレームワークを用いる:下位レベルではパワー法を用いて不正確な勾配および関数値推定値を計算。上位レベルでは反復的最適化を適用。
  • 損失関数およびその勾配の不正確な推定に対応する不正確なオラクルモデルを採用し、不確実性下での収束解析を可能にする。
  • 勾配ベースアルゴリズムにネステロフの加速勾配法を適用し、凸性の仮定なしに停留在点への収束が理論的に保証されることを示す。
  • 確率的近似に基づくランダム勾配フリー手法を導入し、局所的凸性のもとで期待損失の減少を証明する。
  • 理論的複雑性解析に基づき、所望の精度に達するまでの総算術演算数を最小化するための最適なステップサイズおよび反復回数を導出する。
  • 下位レベルでの定常分布およびそのパラメータに対する感度推定に、パワー法およびその微分拡張(Andrew, 1978, 1979)を用いる。

実験結果

リサーチクエスチョン

  • RQ1局所的凸性のもとで期待損失の減少を保証する非凸 Supervised PageRank 学習のための勾配フリー最適化手法を設計できるか?
  • RQ2損失関数が非凸かつ勾配が不正確な状況下でも、理論的に停留在点への収束が保証される勾配ベース手法を構築できるか?
  • RQ3所望の精度に達するまでの計算複雑性(算術演算数)を最小化するためのハイパーパrameter設定は何か?
  • RQ4実世界のウェブランクイングデータにおいて、提案手法は最先端手法と比較して収束速度および最終損失値の両面で優れているか?
  • RQ5Nesterov–Nemirovski 法は、標準的なパワー法よりも定常分布の計算で優れた性能を示せるか?

主な発見

  • 提案された勾配フリー手法は、損失関数の局所的凸性を仮定したもとで、期待損失関数値の減少を保証する。
  • 勾配ベース手法は、凸性の仮定なしに、所与の精度内での停留条件を満たす点への収束を保証する。
  • 勾配フリー手法では、強い凸性のもとで期待損失が幾何的(指数的)に減少し、収束速度は条件数および所望の信頼水準に依存する。
  • 両手法の計算複雑性は、適切に選ばれたハイパーパrameterによって最小化され、リプシッツ定数や定義域の直径といった問題パラメータの関数として明示的な上限が導出された。
  • 全テストセットにおいて、勾配フリー手法(GFN)は最先端の勾配ベース手法を最終損失値の面で上回り、ペアド t テストの p 値は 0.005 未満であった。
  • 勾配ベース手法(GBN)は、1 つのテストセット($Q_2^1$)において最先端手法を上回る性能を示した一方、他のテストセットでは同等の結果を示し、はるかに少ない反復回数で収束した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。