Skip to main content
QUICK REVIEW

[論文レビュー] Using Deep Q-Learning to Control Optimization Hyperparameters

Samantha Hansen|arXiv (Cornell University)|Feb 12, 2016
Reinforcement Learning in Robotics参考文献 13被引用数 23
ひとこと要約

この論文では、勾配ベースのニューラルネットワーク学習における学習率を自動で制御するために深層Qラーニングを用いる、Q勾配降下法という新しい最適化フレームワークを提案する。ハイパーパramータ調整を、カスタムの状態、行動、報酬関数を備えた強化学習問題として定式化することで、DQNが最適な学習率調整を予測するように訓練し、Armijo法および非単調ラインサーチ法と比較して、収束性と一般化性能に優れた結果を得た。

ABSTRACT

We present a novel definition of the reinforcement learning state, actions and reward function that allows a deep Q-network (DQN) to learn to control an optimization hyperparameter. Using Q-learning with experience replay, we train two DQNs to accept a state representation of an objective function as input and output the expected discounted return of rewards, or q-values, connected to the actions of either adjusting the learning rate or leaving it unchanged. The two DQNs learn a policy similar to a line search, but differ in the number of allowed actions. The trained DQNs in combination with a gradient-based update routine form the basis of the Q-gradient descent algorithms. To demonstrate the viability of this framework, we show that the DQN's q-values associated with optimal action converge and that the Q-gradient descent algorithms outperform gradient descent with an Armijo or nonmonotone line search. Unlike traditional optimization methods, Q-gradient descent can incorporate any objective statistic and by varying the actions we gain insight into the type of learning rate adjustment strategies that are successful for neural network optimization.

研究の動機と目的

  • ニューラルネットワーク最適化中に学習率を動的に制御する強化学習ベースの手法を開発し、手動によるハイパーパramータチューニングへの依存を低減すること。
  • 学習率などの最適化ハイパーパramータを制御することを目的とした、状態、行動、報酬の新しい強化学習定式化を定義すること。
  • 経験再生を用いたQラーニングにより、DQNが効果的で適応的な学習率ポリシーを学習できることを示すこと。
  • 提案されたQ勾配降下法の性能を、伝統的なラインサーチ法(Armijo法および非単調法)と比較し、ニューラルネットワークの目的関数を最小化する能力を検証すること。
  • 異なる状態特徴がDQNの意思決定および最終的な最適化行動に与える影響を調査すること。

提案手法

  • 状態表現はテイラー展開とラインサーチの原則に基づき、目的関数値、勾配ノルム、整合性測度を含め、局所的な最適化ダイナミクスを反映する。
  • 行動には、学習率を要因で小さくする、変更しない、および第二のバージョンでは増加させる(追加)ものがあり、DQNは各行動のq値を出力する。
  • 報酬関数は、目的関数の最小化への進捗を反映するように設計されており、改善時には正の報酬、悪化時には負の報酬が与えられる。
  • 経験再生を用いたQラーニングにより、2つのDQNを訓練する:1つは制限された行動(Armijoに類似)で、もう1つは追加の増加行動を含む。両者とも最適な行動価値関数を学習する。
  • 訓練されたDQNはハイブリッドアルゴリズム「Q勾配降下法」に統合され、各イテレーションで学習率の調整を指導致す。標準的な勾配更新と組み合わせられる。
  • フレームワークは、音声分類を目的としたフィードフォワードニューラルネットワークで評価され、特徴の重要性を評価するアブレーションスタディおよびモデル・データスケールにわたる一般化性能の評価が行われた。

実験結果

リサーチクエスチョン

  • RQ1DQNは、標準的なラインサーチ法と比較して、最適化性能を向上させるような方法で学習率を制御できるか?
  • RQ2目的関数値、勾配ノルム、整合性測度といった異なる状態特徴は、DQNのポリシーおよび最終的な最適化結果にどのように影響するか?
  • RQ3Q勾配降下法は、訓練環境を超えてより大きなモデルやデータセットに対しても一般化できるか?
  • RQ4DQNが予測するq値が、報酬の真の割引報酬に収束する様子は、ポリシー学習の成功を示唆するか?
  • RQ5DQNが発見する学習率調整戦略の種類は何か? また、古典的なラインサーチヒューリスティクスと比較してどうなるか?

主な発見

  • 最適な行動のためのDQNのq値が、報酬の真の割引報酬に収束した。これは、ネットワークが安定的かつ正確なポリシーを学習したことを実証的根拠として示している。
  • DQNを用いたQ勾配降下法は、Armijo法および非単調ラインサーチ法を上回り、元のニューラルネットワークにおける最終目的関数値1.91を達成した。特徴をアブレーションした場合に比べて高い値であった。
  • 目的関数値特徴を0に設定した場合、最終目的関数値は1.96に上昇し、学習率がより頻繁に半分に小さくなった。これは、DQNが効果的な意思決定にこの特徴に依存していることを示している。
  • より多くの行動(学習率増加を含む)を備えたDQNは、より複雑だが安定した学習曲線を示したが、行動空間の拡大により、シンプルなバージョンよりも収束が遅くなった。
  • Q勾配降下法は良好に一般化された:3倍のデータを含むより大きなニューラルネットワークでも、より優れた性能を発揮し、スケール変化に対して頑健であることが示された。
  • アブレーションスタディにより、目的関数値、勾配ノルム、整合性測度のすべての状態特徴が最適な性能を発揮するために不可欠であることが確認された。いずれか1つをゼロにした場合、解の質が悪化した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。