Skip to main content
QUICK REVIEW

[論文レビュー] Combining Q-Learning and Search with Amortized Value Estimates

Jessica B. Hamrick, Victor Bapst|arXiv (Cornell University)|Apr 30, 2020
Reinforcement Learning in Robotics参考文献 46被引用数 17
ひとこと要約

SAVEは、状態行動価値の学習済み事前分布を用いてモンテカルロ木探索(MCTS)をガイドすることで、Q学習とMCTSを統合する。このアプローチにより、より良いQ推定値が得られ、それが再び事前分布の更新に使用される。これによりMCTSの計算コストが軽減され、最小限の探索予算でも高速な学習と優れた性能が達成できる。

ABSTRACT

We introduce with Amortized Value Estimates (SAVE), an approach for combining model-free Q-learning with model-based Monte-Carlo Tree Search (MCTS). In SAVE, a learned prior over state-action values is used to guide MCTS, which estimates an improved set of state-action values. The new Q-estimates are then used in combination with real experience to update the prior. This effectively amortizes the value computation performed by MCTS, resulting in a cooperative relationship between model-free learning and model-based search. SAVE can be implemented on top of any Q-learning agent with access to a model, which we demonstrate by incorporating it into agents that perform challenging physical reasoning tasks and Atari. SAVE consistently achieves higher rewards with fewer training steps, and---in contrast to typical model-based search approaches---yields strong performance with very small search budgets. By combining real experience with information computed during search, SAVE demonstrates that it is possible to improve on both the performance of model-free learning and the computational cost of planning.

研究の動機と目的

  • 強化学習におけるモデルベース計画の計算コストを低減しつつ、高いサンプル効率を維持すること。
  • モデルフリーのQ学習とモデルベース探索を組み合わせることで、深層強化学習におけるサンプル効率と学習速度を向上させること。
  • 非常に小さな探索予算でも優れた性能を達成できることを可能にし、一般的なモデルベース手法の主な限界を克服すること。
  • モデルフリーの更新とモデルベース探索の間で協調的な学習ループを構築することを目的とし、アモアタイズド価値推定を用いる。

提案手法

  • 状態行動価値の学習済み事前分布を用いてモンテカルロ木探索(MCTS)をガイドし、探索効率を向上させる。
  • MCTSは、事前分布と環境ダイナミクスに基づいて、改善された状態行動価値推定値を計算する。
  • MCTSから得られた改善されたQ推定値を、実際の経験と組み合わせて、Q学習により事前ネットワークを更新する。
  • このプロセスにより、探索が学習を向上させ、学習が探索のガイドを改善するフィードバックループが形成される。
  • この手法はモジュール型であり、モデルにアクセス可能な任意のQ学習エージェントに統合可能である。
  • 探索からの価値推定値は、複数の学習更新にわたって再利用されることで、1ステップあたりの計算コストが削減される。

実験結果

リサーチクエスチョン

  • RQ1モデルフリーのQ学習とモデルベース探索を組み合わせることで、強化学習におけるサンプル効率が向上するか?
  • RQ2MCTSの計算をどのようにアモアタイズして、性能を落とさずに計画コストを低減できるか?
  • RQ3学習済み事前分布を用いて探索をガイドすることで、非常に小さな探索予算でも優れた性能が達成できるか?
  • RQ4探索と学習の間の協調的ループは、収束を早め、より高い最終リターンをもたらすか?

主な発見

  • 物理的推論タスクおよびAtari環境の両方において、ベースラインのQ学習エージェントと比較して、SAVEはより高い累積報酬を達成した。
  • この手法は顕著に高速に収束し、ピーク性能に達するための訓練ステップ数が大幅に減少した。
  • 非常に小さな探索予算でも、SAVEは標準的なモデルベース手法を上回る性能を維持した。
  • 探索から得た価値推定値と実際の経験を統合することで、より正確で安定したQ値推定が実現した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。