QUICK REVIEW

[論文レビュー] Imagination-Augmented Agents for Deep Reinforcement Learning

Théophane Weber, Sébastien Racanière|arXiv (Cornell University)|Jul 19, 2017

Reinforcement Learning in Robotics被引用数 210

ひとこと要約

想像力を増強したエージェント(I2As)は、学習済み環境モデルからの想像された未来を取り入れて、モデルフリー強化学習を強化し、データ効率とモデルの不完全性に対する頑健性を向上させる。SokobanとMiniPacmanで実証。

ABSTRACT

We introduce Imagination-Augmented Agents (I2As), a novel architecture for deep reinforcement learning combining model-free and model-based aspects. In contrast to most existing model-based reinforcement learning and planning methods, which prescribe how a model should be used to arrive at a policy, I2As learn to interpret predictions from a learned environment model to construct implicit plans in arbitrary ways, by using the predictions as additional context in deep policy networks. I2As show improved data efficiency, performance, and robustness to model misspecification compared to several baselines.

研究の動機と目的

データ効率と一般化を向上させるために、モデルフリーRLとモデルベースRLの組み合わせを動機づける。
不完全な環境予測を解釈する学習可能な想像機構を開発する。
モデルベースのロールアウトとモデルフリー方策を統合するエンドツーエンドのアーキテクチャを設計する。
モデルの仕様誤りへの頑健性を評価し、プランニングのベースラインと比較する。

提案手法

ロールアウトポリシーの行動に条件付けて環境モデルをロールアウトする想像コア(IC)を導入する。
想像された軌跡をロールアウトエンコーダでエンコードし、想像コードc_iaに集約する。
モデルフリー経路の特徴とc_iaを組み合わせて、最終的な方策と価値推定を生成する。
環境モデルを事前訓練し、エージェントをA3Cでエンドツーエンドに訓練する。加えて、想像対応方策をロールアウト方策へ蒸留する補助損失を用いる。
情報利得と計算効率を評価するため、長さの異なるロールアウト（展開ステップ）を用いた実験。
標準的なモデルフリー、コピー・モデルなどのベースラインとI2Aを比較し、不完全なモデル下での性能を分析する。

実験結果

リサーチクエスチョン

RQ1学習済み環境モデルからの想像軌跡を組み込むことで、モデルフリーのベースラインと比較してデータ効率と性能は向上するか。
RQ2I2Aは、モデル誤差の蓄積に苦しむことなく、不完全な環境モデルを頑健に利用できるか。
RQ3想像の深さ（ロールアウト長）は学習速度と最終性能にどう影響するか。
RQ4性能と必要なモデルクエリの点で、I2Aは計画法（例: MCTS）とどう比較されるか？
RQ5I2Aアーキテクチャは、タスクと環境を横断してどの程度一般化できるか？

主な発見

箱	I2A（％）	標準（％）
1	99.5	97
2	97	87
3	92	72
4	87	60
5	77	47
6	66	32
7	53	23

I2AはSokobanで標準的なモデルフリーエージェントを上回り、レベルの最大85％を解決、ベースラインは60％未満。
容量を増やすと、標準ベースラインは約70%のレベルに達するが、依然としてI2Aを下回る。
想像（ロールアウト）長を長くすると性能が向上し、5段階のロールアウトでSokobanの解決レベルが>90%に達する。
環境モデルが不完全またはノイズが多い場合でもI2Aは有効であり、モデル仕様の不一致下でエンコーダ無しモンテカルロベースラインを上回る。
I2Aはデータ効率を示し、環境モデルの事前訓練を考慮すると約3e8フレームでレベルを解く（事前訓練だけで<1e8フレーム）。
MiniPacmanでは、単一の共有環境モデルによりI2Aは、スパース報酬のタスクで標準およびコピー・モデルのベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。