Skip to main content
QUICK REVIEW

[論文レビュー] Forward and Reverse Gradient-Based Hyperparameter Optimization

Luca Franceschi, Michele Donini|arXiv (Cornell University)|Mar 6, 2017
Stochastic Gradient Optimization Techniques参考文献 24被引用数 56
ひとこと要約

本論文は、反復学習アルゴリズムのハイパーパラメータ最適化として、逆モード (RMD) と前方モード (FMD) の2つの勾配ベースの手法を提示し、オンラインでのハイパーパラメータ更新を効率化するリアルタイム前方モード変種を提供する。

ABSTRACT

We study two procedures (reverse-mode and forward-mode) for computing the gradient of the validation error with respect to the hyperparameters of any iterative learning algorithm such as stochastic gradient descent. These procedures mirror two methods of computing gradients for recurrent neural networks and have different trade-offs in terms of running time and space requirements. Our formulation of the reverse-mode procedure is linked to previous work by Maclaurin et al. [2015] but does not require reversible dynamics. The forward-mode procedure is suitable for real-time hyperparameter updates, which may significantly speed up hyperparameter optimization on large datasets. We present experiments on data cleaning and on learning task interactions. We also present one large-scale experiment where the use of previous gradient-based methods would be prohibitive.

研究の動機と目的

  • グリッド法/ランダム法/ベイズ法の代替として、勾配ベースのハイパーパラメータ最適化を動機づける。
  • 反復的な訓練ダイナミクスに対する逆モードおよび前方モードのハイパーグラディエント計算を導出・比較する。
  • オンラインのハイパーパラメータ更新のためのリアルタイム前方モードハイパーグラディエント法を導入する。
  • 時間計算量と空間計算量を分析し、大規模な実験でスケーラビリティを示す。
  • 実践的な利点を強調するため、制約付きHOシナリオ(データクリーニングとマルチタスク学習)を紹介する。

提案手法

  • トレーニングを s_t = Phi_t(s_{t-1}, lambda) を用いる動的システムとして定式化する。ハイパーパラメータ lambda を含む。
  • ラグランジュ乗数 alpha_t を用いたラグランジアンを用いて逆モードハイパーグラディエントを導出し、時間をまたぐ誤差逆伝搬法との関係を示す。
  • 全微分 ds_T/dlambda から前方モードハイパーグラデIENT を導出し、 Z_t = A_t Z_{t-1} + B_t という再帰を導く。
  • オンライン更新の可能性を考慮したリアルタイム前方モード変種(RTRL様)を提供し、各時間ステップで部分ハイグラディエントを計算する。
  • 計算量を検討する:前方モードは O(T m g(d,m)) 時間と O(h(d,m)) 空間、逆方モードは O(T g(d,m)) 時間と O s(d,m) 空間。

実験結果

リサーチクエスチョン

  • RQ1反復学習アルゴリズムにおける検証エラーの勾配をハイパーパラメータに関して効率的に計算するにはどうすればよいか。
  • RQ2時間・空間・リアルタイム適用性の観点から、逆モードと前方モードのハイパーグラデント計算のトレードオフは何か。
  • RQ3前方モードによるリアルタイム(オンライン)ハイパーパラメータ更新は、large datasetsでハイパーパラメータ最適化の速度を大幅に向上させるか。
  • RQ4制約付きハイパーパラメータ最適化設定(例えばスパース性、非負性)はHOの性能にどのような影響を与えるか。
  • RQ5以前の勾配ベース法が実現困難だった大規模モデルやタスクに、勾配ベースのHOはスケールできるか。

主な発見

  • 逆モードハイパーグラディエントは原理的なラグランジアンベースの勾配を提供するが、経路の保存による空間計算量が高い。
  • 前方モードハイパーグラディエントは、パラメータ数に対してハイパーパラメータの数が相対的に小さい場合に効率的な計算を可能にする。
  • リアルタイム前方モード(RTRL様)は、訓練中にハイパーパラメータを更新できるオンライン適応を可能にする。
  • 実験はデータクリーニングとマルチタスク学習への適用性を示し、 prior gradient 法が prohibitive であった大規模設定も含む。
  • 制約付きHO(例:L1スパース性)はノイズの多い例を特定し、マルチタスク学習におけるタスク間の相互作用を明らかにするのに役立つ。
  • 前方モードのアプローチは大規模データセットでのハイパーパラメータ最適化を大幅に高速化し、オンライン更新をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。