QUICK REVIEW

[論文レビュー] Learning to Understand Goal Specifications by Modelling Reward

Dzmitry Bahdanau, Felix Hill|arXiv (Cornell University)|Jun 5, 2018

Reinforcement Learning in Robotics被引用数 69

ひとこと要約

AGILE は、専門家のゴール状態とエージェントの経験から共同訓練された報酬モデルの報酬を用いて命令条件付き RL エージェントを訓練し、ハードコードされた環境報酬を必要とせず指示を理解できるようにし、新しい環境へ一般化します。

ABSTRACT

Recent work has shown that deep reinforcement-learning agents can learn to follow language-like instructions from infrequent environment rewards. However, this places on environment designers the onus of designing language-conditional reward functions which may not be easily or tractably implemented as the complexity of the environment and the language scales. To overcome this limitation, we present a framework within which instruction-conditional RL agents are trained using rewards obtained not from the environment, but from reward models which are jointly trained from expert examples. As reward models improve, they learn to accurately reward agents for completing tasks for environment configurations---and for instructions---not present amongst the expert data. This framework effectively separates the representation of what instructions require from how they can be executed. In a simple grid world, it enables an agent to learn a range of commands requiring interaction with blocks and understanding of spatial relations and underspecified abstract arrangements. We further show the method allows our agent to adapt to changes in the environment without requiring new expert examples.

研究の動機と目的

目標状態の例から報酬を学習することで、設計された言語条件付き報酬への依存を減らす動機付け。
命令条件付き報酬モデルとポリシーを同時に学習するフレームワークを提案する。
新しい専門家デモンストレーションを必要とせずに新しい環境への適応を可能にする。
単純なグリッドワールドタスクで、学習された報酬が真の環境報酬と同等にエージェントをガイドできることを示す。

提案手法

Adversarial Goal-Induced Learning from Examples (AGILE) を導入し、識別子 D_phi が状態 s が命令 c のゴールであるかを予測することを学習する。
モデル化された報酬 hat{r}_t = [D_phi(c, s_t) > 0.5] を用いて、期待割引報酬を最大化するようにポリシー pi_theta を訓練する。
データセット D からの専門家 (c, s) ゴール状態の例とリプレイバッファ B からのエージェント起源の (c, s) ペアを識別することで、交差エントロピー目的関数 L_D(phi) によって報酬モデルを更新する。
D_phi 更新時に B から低報酬状態の上位 1-ρ パーセントを破棄するサンプリングヒューリスティックで偽陰性を扱う。ρ は想定される負率。
AGILE-trained ポリシー（AGILE-A3C）を、真の環境報酬で訓練されたポリシーおよび補助的な報酬予測ベースライン（RP）と比較する。
命令を符号化し、視覚状態表現に grounding するための2つのモデルアーキテクチャ（FiLM-NMN と FiLM-LSTM）を探索する。

実験結果

リサーチクエスチョン

RQ1命令に条件付けられた学習報酬モデルは、環境ベースの報酬を使わなくても RL ポリシーを効果的に監督できるか。
RQ2AGILE は命令タイプ全般にわたって、環境報酬ベースのベースラインと比較して学習を速め、性能を再現できるか。
RQ3未 seen の指示と環境の変化に対して報酬モデルはどれほど一般化可能か。
RQ4報酬モデルは新しい構成でポリシーの訓練やファインチューニングに再利用できるか。

主な発見

AGILE-A3C は GridLU-Relations タスクを、環境報酬を用いた標準的な A3C よりも易しく学習する。
補助的な報酬予測目的を用いると A3C の性能がさらに向上し、AGILE の性能に近づく。
報酬モデルは高い精度（約 99% 以上）を達成でき、早期の偽陽性を通じて有用なカリキュラムを提供する。
構造に依存しない FiLM-LSTM を用いた AGILE は高い成功率を達成し、言語の grounding が必ず NMN 構造を必要としないことを示唆する。
報酬モデルは、環境ダイナミクスの変化に対してポリシーの性能を適応させることで一般化を示し、ファインチューニングが回復を補助する。
GridLU-Arrangements は、目標状態空間が大きくなる場合にもスケール可能で、限られた専門家ゴールデータ（100,000 件の例）と人間評価の最終状態で意味のある成功を達成することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。