Skip to main content
QUICK REVIEW

[論文レビュー] Recall Traces: Backtracking Models for Efficient Reinforcement Learning

Anirudh Goyal, Philémon Brakel|arXiv (Cornell University)|Apr 2, 2018
Reinforcement Learning in Robotics参考文献 48被引用数 25
ひとこと要約

本稿では、高報酬状態に至る合成軌道を生成するために学習されたバックトラッキングモデルを用いるRecall Tracesという手法を提案する。この手法により強化学習におけるサンプル効率が向上し、複数の環境でオンポリシーおよびオフポリシーのアルゴリズムにおいて学習が加速され、環境との相互作用回数を減らしてもより速く収束し、高い性能を達成する。

ABSTRACT

In many environments only a tiny subset of all states yield high reward. In these cases, few of the interactions with the environment provide a relevant learning signal. Hence, we may want to preferentially train on those high-reward states and the probable trajectories leading to them. To this end, we advocate for the use of a backtracking model that predicts the preceding states that terminate at a given high-reward state. We can train a model which, starting from a high value state (or one that is estimated to have high value), predicts and sample for which the (state, action)-tuples may have led to that high value state. These traces of (state, action) pairs, which we refer to as Recall Traces, sampled from this backtracking model starting from a high value state, are informative as they terminate in good states, and hence we can use these traces to improve a policy. We provide a variational interpretation for this idea and a practical algorithm in which the backtracking model samples from an approximate posterior distribution over trajectories which lead to large rewards. Our method improves the sample efficiency of both on- and off-policy RL algorithms across several environments and tasks.

研究の動機と目的

  • 報酬がスパarsityまたは弱い環境において、高報酬状態がまれな状況での強化学習におけるサンプル効率の向上を目的とする。
  • モデルフリーRL手法が広範な環境相互作用を必要とするという限界を、自己教師付き遷移データを活用することで克服することを目的とする。
  • 高価値状態から後退するパスをシミュレートすることで、有用な軌道を発見する効率的な探索を可能にする手法の開発を目的とする。
  • TRPO や SAC などの既存のオンポリシーおよびオフポリシーRLアルゴリズムと、バックトラッキング機構をスムーズに統合することを目的とする。
  • 訓練済みバックトラッキングモデルから得られるリコールトレースが、ランダムまたはベースライン手法よりも学習速度と最終的パフォーマンスで優れていることを実証することを目的とする。

提案手法

  • 将来の高価値状態が与えられたもとで、それより前の (状態, 行動) 組み合わせを予測するバックトラッキングモデルを学習し、$ p(s_t, a_t | s_{t+1}) $ をモデル化する。
  • エージェントの相互作用から得たオフライン経験データを用いてモデルを学習し、高報酬状態に至る妥当な軌道を再構成する能力を習得する。
  • リコールトレースは、高価値状態から開始してバックトラッキングモデルからサンプリングすることで生成され、良好な状態で終わる合成軌道が得られる。
  • 変分推論の解釈により、バックトラッキングモデルは高報酬に至る軌道の事後分布を近似していると見なせる。
  • 生成されたリコールトレースは、オンポリシー(例:TRPO)およびオフポリシー(例:SAC)アルゴリズムの両方で、リプレイバッファの拡張やポリシー更新に利用される。
  • 高価値状態は価値関数の推定値やゴール生成モデルによって特定され、自動的にトレース生成が可能になる。

実験結果

リサーチクエスチョン

  • RQ1高報酬状態に至る過去の軌道を再構成するバックトラッキングモデルは、強化学習におけるサンプル効率を向上させることができるか?
  • RQ2リコールトレースの使用は、ランダムまたはベースラインの経験リプレイに比べて、学習速度と最終的パフォーマンスで優れているか?
  • RQ3バックトラッキングモデルはオンポリシーおよびオフポリシーRLアルゴリズムと効果的に組み合わせられ、学習を加速できるか?
  • RQ4トレース長およびバックトラッキングモデルの品質が学習パフォーマンスに与える影響は何か?
  • RQ5本手法は、連続制御およびナビゲーションタスクを含む、報酬がスパarsityな多様な環境に一般化可能か?

主な発見

  • バックトラッキングモデルはサンプル効率を顕著に向上させ、U-Maze Antタスクではリコールトレースなしでは275ステップで27%の状態空間カバレッジにとどまるが、155ステップで63%のカバレッジを達成した。
  • ロボット歩行タスクでは、すべてのベンチマークでTRPOを上回り、Half-Cheetah, Ant, Walker, Hopperの全タスクでより速い学習とより高い最終的パフォーマンスを達成した。
  • SACと組み合わせた場合、すべてのタスクで学習速度と最終的パフォーマンスが向上し、特に挑戦的なAnt環境で最大の向上が観察された。
  • アブレーションスタディにより、訓練済みバックトラッキングモデルがランダムモデルを上回ることを確認し、後退ダイナミクスを学習することが重要であることが裏付けられた。
  • ハイパーパramータの選択やトレース長に対して本手法は頑健であり、複数のランダムシードおよび環境で性能向上が観察された。
  • 可視化結果から、リコールトレースが高報酬状態の周辺領域を効果的に探索しており、収束が速く、状態空間の広範なカバレッジが達成されていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。