Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Learn without Gradient Descent by Gradient Descent

Yutian Chen, Matthew W. Hoffman|arXiv (Cornell University)|Nov 11, 2016
Higher Education Learning Practices被引用数 162
ひとこと要約

本論文は、合成関数上で再帰ニューラルネット(RNN)最適化器を訓練し、ブラックボックス最適化を速く転送可能に行えるようにする。ハイパーパラメータ調整や制御タスクを含むさまざまな設定で、ベイズ最適化手法と互角かそれを上回る性能を示す。

ABSTRACT

We learn recurrent neural network optimizers trained on simple synthetic functions by gradient descent. We show that these learned optimizers exhibit a remarkable degree of transfer in that they can be used to efficiently optimize a broad range of derivative-free black-box functions, including Gaussian process bandits, simple control objectives, global optimization benchmarks and hyper-parameter tuning tasks. Up to the training horizon, the learned optimizers learn to trade-off exploration and exploitation, and compare favourably with heavily engineered Bayesian optimization packages for hyper-parameter tuning.

研究の動機と目的

  • ベイズ法を超える高速で汎用的なブラックボックス最適化の動機づけ。
  • 探索-利用のトレードオフを学習するメタ学習最適化器の開発。
  • 学習した最適化器を微分不可能な問題へドメイン横断で転送することの実証。
  • 訓練ホライズンのシナリオで標準BOパッケージより計算上の利点を示す。

提案手法

  • ブラックボックス最適化を、隠れ状態を更新し次の探索点を提案する共有パラメータを持つRNNとしてモデル化する。
  • RNNを時間に沿って逆伝播させ、有限ホライズン内の目的値を合計する損失(L_sum)で訓練する。
  • Expected Improvement(EI)やObserved Improvement(OI)のように探索を促進する損失で実験する。
  • 訓練信号を微分可能にするため、ガウス過程事前分布から生成される訓練分布を用いる。
  • 入力にフィードバックフラグを付加し、順不同の完了をシミュレートすることで並列評価へ拡張する。
  • 学習した最適化器をSpearmint、TPE、SMACと比較し、GPバンディット、制御、ハイパーパラメータ調整を含む転送タスクで評価する。
  • 最適化器とテスト時の速度を評価する際、微分可能なアーキテクチャ(DNCとLSTM)を用いる。

実験結果

リサーチクエスチョン

  • RQ1単純な合成関数上で訓練されたRNNベースの最適化器は、幅広いブラックボックス関数を効果的に最適化できるか。
  • RQ2訓練分布を超える微分不可能な最適化領域へ、学習した最適化器は転送できるか。
  • RQ3異なるメタ学習損失(合計、EI、OI)は探索–利用バランスと性能にどのような影響を与えるか。
  • RQ4学習した最適化器の計算上の利点は、確立されたベイズ最適化パッケージと比較してどの程度か。
  • RQ5並列評価を学習最適化フレームワークに性能低下なしに組み込めるか。

主な発見

SpearmintTPESMACDNCLSTM
123916.316.30.10.02
123816.216.20.10.02
152419.319.30.10.02
276820.820.80.10.02
  • 学習したRNN最適化器はGPバンディット、制御目的、グローバル最適化ベンチマーク、およびMLハイパーパラメータ調整へ転送できる。
  • DNCベースの最適化器はEIまたはOI損失で訓練されると、直接観測DNCよりも優れており、スペアミント、SMAC、TPEと比較して、またはそれより速いことが多い。100ステップのホライズン内で競合的。
  • 最適化器はテスト時に従来のBO手法より桁違いに高速で、報告例では実行時間を最大で約10^4倍とする rough runtime improvements。
  • 入力次元が高くなると、訓練ホライズンにおいて学習した最適化器は基礎BO手法を上回る。
  • 並列提案スキームは性能を維持しつつ、ハイパーパラメータ調整のシナリオで大幅なスピードアップを提供。
  • 標準ベンチマークや単純な制御問題で競争力のある結果を達成し、しばしば設計された最適化器と同等の性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。