Skip to main content
QUICK REVIEW

[論文レビュー] Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions

Juergen Schmidhuber|arXiv (Cornell University)|Dec 5, 2019
Reinforcement Learning in Robotics被引用数 23
ひとこと要約

この論文は、報酬予測を回避し、過去の経験に基づいて所望の報酬と時間枠を直接行動にマッピングする教師あり学習によって、報酬予測を経由せずに行動を生成する新規な手法であるUpside Down Reinforcement Learning(UDRL)を提案する。異なる可微分コントローラ(例:RNN)を用いて、自己生成されたコマンド入力(例:Y時間以内にXの報酬を達成)から一般化を図ることで、従来の手法と比較して、挑戦的な強化学習タスクにおいて優れた性能を達成している。これはパイロット実装でも同様の結果を示している。

ABSTRACT

We transform reinforcement learning (RL) into a form of supervised learning (SL) by turning traditional RL on its head, calling this Upside Down RL (UDRL). Standard RL predicts rewards, while UDRL instead uses rewards as task-defining inputs, together with representations of time horizons and other computable functions of historic and desired future data. UDRL learns to interpret these input observations as commands, mapping them to actions (or action probabilities) through SL on past (possibly accidental) experience. UDRL generalizes to achieve high rewards or other goals, through input commands such as: get lots of reward within at most so much time! A separate paper [63] on first experiments with UDRL shows that even a pilot version of UDRL can outperform traditional baseline algorithms on certain challenging RL problems. We also also conceptually simplify an approach [60] for teaching a robot to imitate humans. First videotape humans imitating the robot's current behaviors, then let the robot learn through SL to map the videos (as input commands) to these behaviors, then let it generalize and imitate videos of humans executing previously unknown behavior. This Imitate-Imitator concept may actually explain why biological evolution has resulted in parents who imitate the babbling of their babies.

研究の動機と目的

  • 従来の強化学習が将来の報酬を予測し、その予測結果を複雑な最適化を経て行動に変換するという限界を克服すること。
  • 各新しい経験を即座にポリシー改善に利用できるようにするため、継続的かつ生涯にわたる学習を可能にすること。
  • 報酬予測ネットワークや価値関数推定の必要性を排除することで、強化学習を簡素化すること。
  • 過去の経験から得られる多様なコマンド入力(例:「X報酬をY時間以内に達成」)を解釈できる1つのポリシー・ネットワークを訓練することで、新しいタスクへの一般化を可能にすること。
  • ビデオデモから人間の行動を模倣する recursively な「模倣者を模倣する」フレームワークを用いた模倣学習の可能性を検討すること。

提案手法

  • UDRLは、所望の累積報酬と時間枠を、可微分コントローラ(例:RNN)への入力コマンドとして扱い、これらを行動確率にマッピングする。
  • 報酬予測のための複雑なネットワークを必要とせず、1つの生涯的試行から得られる、後から生成されたコマンド・アクション対を用いて勾配降下法でコントローラを訓練する。コマンドはすべての過去の時間間隔(time1 < time2)から導出される。
  • コマンド入力の条件下での行動分布を学習することで一般化を実現し、『より少ない時間でより多くの報酬を達成する』といった、訓練中に明示的に見られなかった新しい目標に対しても外挿可能となる。
  • 深層ネットワークの一般化能力を活用して、明示的なコマンド入力なしに、成功した行動をコンパクトなポリシー・ネットワークに圧縮する。
  • このフレームワークは決定論的および確率的環境の両方をサポートし、RNNの初期コマンド記憶機能により部分観測設定へも拡張可能である。
  • 教師あり事前学習と統合可能であり、経験再生や関連するシーケンスに限定した訓練を組み合わせることで、計算コストを低減できる。

実験結果

リサーチクエスチョン

  • RQ1強化学習を報酬予測を回避し、所望の報酬を直接行動にマッピングする形に再定義できるか?
  • RQ21つの生涯的試行からの経験のみで、コマンド入力に対する教師あり学習によって汎用ポリシー・ネットワークを訓練できるか?
  • RQ3深層ネットワークの一般化能力が、訓練中に明示的に見られなかった新しいタスクを解消するポリシーにどのように寄与するか?
  • RQ4『模倣者を模倣する』フレームワークは、親が乳児のいとこを模倣するような生物学的メカニズムを説明できるか?
  • RQ5報酬予測ベースや価値ベースの手法と比較して、後から生成されたコマンドを使用する方法の計算的・統計的トレードオフは何か?

主な発見

  • パイロット版UDRLは、別途発表された実験論文[63]で示されたように、特定の挑戦的な強化学習問題において、従来のRLベースラインを上回る性能を発揮した。
  • この手法により、継続的かつオンライン学習が可能となり、新しい観測が即座に教師あり微調整を用いてポリシー改善に利用される。
  • UDRLは、『より少ない時間でより多くの報酬を達成する』といった、訓練中に明示的に見られなかった新しいコマンド入力を解釈することで、効果的に新しいタスクに一般化できる。
  • RNNを視覚入力を対応する行動にマッピングするように訓練することで、ビデオデモから人間の行動を模倣することができ、以前に見たことのない行動に対しても一般化が可能になった。
  • 報酬予測誤差や価値関数近似バイアスといった従来のRLの一般的な問題を回避し、コマンドから直接行動マッピングを学習することで、より安定した性能を発揮する。
  • 実験では、限られた経験しか得られない状況でも、命令ベースの一般化により複雑な行動を学習し、探索戦略を改善できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。