Skip to main content
QUICK REVIEW

[論文レビュー] RUDDER: Return Decomposition for Delayed Rewards

Jose A. Arjona-Medina, Michael Gillhofer|arXiv (Cornell University)|Jun 20, 2018
Reinforcement Learning in Robotics参考文献 121被引用数 59
ひとこと要約

RUDDER は遅延報酬に対処するために報酬再分配とリターン分解を導入し、LSTM ベースのリターン分解を用いて RL を回帰タスクに変換することで、顕著なスピードアップと Atari の性能向上をもたらす。

ABSTRACT

We propose RUDDER, a novel reinforcement learning approach for delayed rewards in finite Markov decision processes (MDPs). In MDPs the Q-values are equal to the expected immediate reward plus the expected future rewards. The latter are related to bias problems in temporal difference (TD) learning and to high variance problems in Monte Carlo (MC) learning. Both problems are even more severe when rewards are delayed. RUDDER aims at making the expected future rewards zero, which simplifies Q-value estimation to computing the mean of the immediate reward. We propose the following two new concepts to push the expected future rewards toward zero. (i) Reward redistribution that leads to return-equivalent decision processes with the same optimal policies and, when optimal, zero expected future rewards. (ii) Return decomposition via contribution analysis which transforms the reinforcement learning task into a regression task at which deep learning excels. On artificial tasks with delayed rewards, RUDDER is significantly faster than MC and exponentially faster than Monte Carlo Tree Search (MCTS), TD(λ), and reward shaping approaches. At Atari games, RUDDER on top of a Proximal Policy Optimization (PPO) baseline improves the scores, which is most prominent at games with delayed rewards. Source code is available at \url{https://github.com/ml-jku/rudder} and demonstration videos at \url{https://goo.gl/EQerZV}.

研究の動機と目的

  • 有限MDPにおける遅延報酬による長期的なクレジット割り当てを扱う。
  • 将来の期待報酬がゼロとなるリターン等価なSDPを作成するために報酬再分配を導入する。
  • 効率的な学習を可能にするためにRLを回帰タスクへ変換するリターン分解を開発する。
  • リターンへの状態-行動の寄与を特定するためにLSTMベースのリターン分解を活用する。
  • 合成タスクおよびAtariゲームでTD、MC、MCTS、報酬整形を上回るスピードアップを実証する。

提案手法

  • 報酬再分配によってリターン等価なシーケンスMarkov決定過程(SDP)を定義する。
  • 即時報酬の平均でQ値を推定できるよう、将来の期待報酬がゼロとなる最適な再分配を目指す。
  • リターン分解を用いてシーケンスリターンへの状態-行動の寄与を識別する。
  • LSTMベースのリターン分解を用いてシーケンス全体のリターンを予測するモデルを訓練し、予測差から再分配された報酬を導出する。
  • フェーズベースの学習:安全な探索、レッスンリプレイバッファ、次にLSTMベースのリターン分解。
  • 再分配された報酬をQ学習、ポリシー勾配、またはPPOベースのフレームワークに統合する(例: 再分配報酬を用いたPPO)。

実験結果

リサーチクエスチョン

  • RQ1報酬再分配は最適な方策を保持しつつ、将来の期待報酬がゼロとなるリターン等価なSDPを作り出すことができるか。
  • RQ2寄与分析によるリターン分解は、完全なエピソードの回帰に基づく遅延報酬からの効果的な学習を可能にするか。
  • RQ3人工的な遅延報酬タスクとAtariゲームにおいて、RUDDERの性能はTD、MC、MCTS、報酬整形とどう比較されるか。
  • RQ4この設定でフィードフォワードモデルに対するLSTMを用いたリターン分解の実用的な利点は何か。

主な発見

  • RUDDERはTD(λ)、MC、MCTS、報酬整形と比較して人工的遅延報酬タスクで顕著なスピードアップを達成する。
  • 最適な報酬再分配は理論的に将来の期待報酬をゼロにし、Q値推定を即時報酬の平均に還元する。
  • リターン分解は最も寄与する状態-行動のペアを特定し、報酬の効率的な再分配を可能にする。
  • AtariゲームではRUDDERはPPOベースのベースラインを改善し、遅延報酬を特徴とするゲームで最も大きな効果を示す。
  • 提案されたLSTMベースのアプローチを用いた遅延報酬を伴う有限ホライゾンMDPで、実験は実質的な性能向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。