Skip to main content
QUICK REVIEW

[論文レビュー] Deep Transfer in Reinforcement Learning by Language Grounding.

Karthik Narasimhan, Regina Barzilay|arXiv (Cornell University)|Aug 1, 2017
Topic Modeling被引用数 13
ひとこと要約

この論文は、自然言語の記述を活用して、異なる環境間で効果的な方策の転送を可能にする、新しい深層転送強化学習フレームワークを提案する。微分可能で計画可能なモジュールと因子化された状態表現を通じて、テキスト記述を環境のダイナミクス(遷移や報酬など)に埋め込むことで、転送学習およびマルチタスク学習のシナリオにおいて、先行手法に比べて平均報酬が最大14%高く、初期報酬が11.5%高い結果を得た。

ABSTRACT

In this paper, we explore the utilization of natural language to drive transfer for reinforcement learning (RL). Despite the wide-spread application of deep RL techniques, learning generalized policy representations that work across domains remains a challenging problem. We demonstrate that textual descriptions of environments provide a compact intermediate channel to facilitate effective policy transfer. Specifically, by learning to ground the meaning of text to the dynamics of the environment such as transitions and rewards, an autonomous agent can effectively bootstrap policy learning on a new domain given its description. We employ a model-based RL approach consisting of a differentiable planning module, a model-free component and a factorized state representation to effectively use entity descriptions. Our model outperforms prior work on both transfer and multi-task scenarios in a variety of different environments. For instance, we achieve up to 14% and 11.5% absolute improvement over previously existing models in terms of average and initial rewards, respectively.

研究の動機と目的

  • 異なる強化学習ドメインに一般化する方策表現を学習する課題に対処すること。
  • 自然言語の記述が、環境間での方策転送のための効果的な中間チャネルとして機能するかどうかを検討すること。
  • テキストによる環境記述を活用することで、ゼロショットおよびフェイシュット転送学習におけるサンプル効率とパフォーマンスを向上させること。
  • モデルフリーとモデルベースのコンponentsを統合した、言語の根拠付けを組み込んだモデルベース強化学習フレームワークを開発すること。

提案手法

  • フレームワークは、環境のテキスト記述を、状態遷移や報酬を含む学習済みのダイナミクスにマッピングする微分可能な計画モジュールを採用している。
  • 要因分解された状態表現を用いて、エントリティレベルの情報を環境のダイナミクスから分離することで、ドメイン間でのより良い一般化を可能にしている。
  • 方策最適化のためのモデルフリー強化学習コンponentと、言語に根ざした情報を用いて環境相互作用をシミュレートするモデルベース計画モジュールを統合している。
  • テキスト記述は微分可能なアーキテクチャを介して埋め込み・整合化され、言語-方策の整合性の勾配ベース最適化が可能になっている。
  • システムはエンドツーエンドに訓練され、言語入力から報酬と遷移を予測するようになっており、新しい環境へのゼロショット方策転送が、テキスト記述のみで可能になっている。
  • エントリティレベルの記述を活用することで、類似した意味的構造を持つ未観測環境においても、一般化が向上している。

実験結果

リサーチクエスチョン

  • RQ1自然言語の記述は、強化学習における方策転送を可能にする効果的な中間信号として機能するか?
  • RQ2言語の根拠付けは、ゼロショットおよびフェイシュット転送学習におけるサンプル効率とパフォーマンスをどのように向上させるか?
  • RQ3微分可能な計画モジュールと言語入力を統合することで、環境間での方策一般化はどの程度向上するか?
  • RQ4因子化された状態表現は、エンドツーエンド表現と比較して、転送パフォーマンスにどのように寄与するか?

主な発見

  • 提案手法は、転送学習のシナリオにおいて、先行する最先端モデルに比べて最大14%の平均リターンの絶対的向上を達成した。
  • 初期タスクパフォーマンスが11.5%向上しており、強力なゼロショット転送能力を示している。
  • 言語に根ざした方策転送は、サンプル効率を著しく向上させ、新しい環境での収束をより迅速に可能にしている。
  • 言語入力と微分可能な計画モジュールを統合したアプローチは、言語の監視がないモデルに比べ、より頑健で一般化可能な方策を生成している。
  • 因子化された状態表現は、エントリティレベルの意味論を環境のダイナミクスから分離することで、転送パフォーマンスを向上させている。
  • モデルは多様な環境において、既存のアプローチを上回り、転送およびマルチタスク強化学習設定において強力な一般化能力を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。