Skip to main content
QUICK REVIEW

[論文レビュー] Riemannian Adaptive Optimization Methods

Gary Bécigneul, Octavian-Eugen Ganea|arXiv (Cornell University)|Oct 1, 2018
Stochastic Gradient Optimization Techniques参考文献 29被引用数 93
ひとこと要約

この論文は適応型最適化法(Adagrad、Adam、Amsgrad)をリーマン多様体のデカルト積へ一般化し、測地的凸目的関数に対する収束証明を提供し、双曲幾何を用いたタキソノミー埋め込みで経験的な利点を示す。

ABSTRACT

Several first order stochastic optimization methods commonly used in the Euclidean domain such as stochastic gradient descent (SGD), accelerated gradient descent or variance reduced methods have already been adapted to certain Riemannian settings. However, some of the most popular of these optimization tools - namely Adam , Adagrad and the more recent Amsgrad - remain to be generalized to Riemannian manifolds. We discuss the difficulty of generalizing such adaptive schemes to the most agnostic Riemannian setting, and then provide algorithms and convergence proofs for geodesically convex objectives in the particular case of a product of Riemannian manifolds, in which adaptivity is implemented across manifolds in the cartesian product. Our generalization is tight in the sense that choosing the Euclidean space as Riemannian manifold yields the same algorithms and regret bounds as those that were already known for the standard algorithms. Experimentally, we show faster convergence and to a lower train loss value for Riemannian adaptive methods over their corresponding baselines on the realistic task of embedding the WordNet taxonomy in the Poincare ball.

研究の動機と目的

  • 一般的なリーマン多様体上で intrinsic adaptive optimizer を作成する際の課題を説明する。
  • 多様体のデカルト積に対する Adagrad、Adam、Amsgrad のリーマン版を提案する。
  • デカルト積上の測地凸目的関数に対する収束解析を提供する。
  • 双曲空間を用いたタキソノミー埋め込みタスクで方法を経験的に検証する。

提案手法

  • 多様体成分にまたがる適応的更新をデカルト積の設定で定式化する(x = (x1,...,xn)。
  • 更新をスケールするためにリーマン幾何学的メトリクスを用いた成分ごとの勾配ノルムを定義する(||g_t^i||_{x_t^i})。
  • 固有の指数写像と平行 transporting を用いたデカルト積多様体上の Ramsgrad と RadamNc アルゴリズムを導出する。
  • 曲率を zeta 項として取り入れた測地凸の設定での後悔界と収束保証を証明する。
  • Euclidean の Adagrad/Adam/Amsgrad と比較し、Euclidean 結果が回復する特別な場合について議論する。
  • Poincaré ball を用いた退到付け更新で双曲的 WordNet 埋め込みを実験する。

実験結果

リサーチクエスチョン

  • RQ1一般的なリーマン多様体上で intrinsic な適応最適化をどのように拡張できるか。
  • RQ2多様体のデカルト積上で座標間の適応性を意味ある形で実装できるか。
  • RQ3リーマン版の Adagrad/Adam/Amsgrad は収束保証と実用的な利点を提供するか。
  • RQ4曲率と多様体の幾何がこれらの適応法の収束と性能にどのように影響するか。
  • RQ5提案されたリーマン適応法は双曲的なタキソノミー埋め込みのような非ユークリッドの埋め込みタスクに有利か。

主な発見

  • リーマン Adagrad、Ramsgrad、RadamNc は成分ごとの適応更新を用いてデカルト積多様体上で実現可能である。
  • Ramsgrad および RadamNc の測地凸目的に対する後悔の界隈の収束保証が、曲率依存項を含んで確立されている。
  • 多様体の曲率は zeta 項を介して界に現れ、ユークリッドと曲率を持つ場合の間を補間している。
  • 双曲的 WordNet 埋め込みの経験的結果は、非適応ベースラインよりもリーマン適応法の収束が速く、訓練損失が低いことを示す。
  • 退到に基づく実験では Radam が最も低い訓練損失を達成し、 Ramsgrad はリンク予測タスクでより良い一般化を示すことがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。