QUICK REVIEW

[論文レビュー] Learning and Querying Fast Generative Models for Reinforcement Learning

Lars Buesing, Théophane Weber|arXiv (Cornell University)|Feb 8, 2018

Reinforcement Learning in Robotics参考文献 32被引用数 70

ひとこと要約

本論文は、ピクセルから学習する高速な状態空間環境モデル（決定論的および確率的）を提案し、モデルベース強化学習を効率化する。イマジネーションを活用したエージェントが、MS_PACMANで強力なモデルフリーベースラインを上回り、モデルへの問いかけを学習するとさらなる改善を示す。

ABSTRACT

A key challenge in model-based reinforcement learning (RL) is to synthesize computationally efficient and accurate environment models. We show that carefully designed generative models that learn and operate on compact state representations, so-called state-space models, substantially reduce the computational costs for predicting outcomes of sequences of actions. Extensive experiments establish that state-space models accurately capture the dynamics of Atari games from the Arcade Learning Environment from raw pixels. The computational speed-up of state-space models while maintaining high accuracy makes their application in RL feasible: We demonstrate that agents which query these models for decision making outperform strong model-free baselines on the game MSPACMAN, demonstrating the potential of using learned environment models for planning.

研究の動機と目的

コンピュータ計算量の少ない環境モデルを、コンパクトな状態表現（状態空間モデル）を学習することによって推進する。
決定論的および確率的な状態空間モデルと、それらのピクセルベース学習能力を調査する。
強化学習エージェントにおいて状態空間モデルを問いかけることによるプランニングと意思決定の利点を示す。
不確実性モデリングと時間的抽象化（ジャンプしたモデル）がALEタスクの速度と精度に与える影響を示す。

提案手法

環境モデリングのために、自己回帰型、再帰的自己回帰型、および状態空間モデル（決定論的および確率的）を定義・比較する。
長期依存性を捉えるため、ピクセルベースのエンコーダと畳み込み遷移・デコードモジュール、プールと注入層を用いる。
最大尤度またはELBO目的関数でモデルを訓練する。確率的モデル（sSSMs）には変分推論を用いる。
時間的抽象化を用いてより長い horizons を近似するジャンプトレーニングを用い、計算を削減する。
Imagination-Augmented Agents（I2A）に状態空間モデルを統合し、モンテカルロロールアウトを実行して方策/価値関数に情報を提供する。
ロールアウト戦略を蒸留やモデルを介した逆伝播で訓練する学習-問いかけ（learning-to-query）アプローチを探究し、プランニングを改善する。

実験結果

リサーチクエスチョン

RQ1ピクセル観測から学習した状態空間モデル（決定論的および確率的）は、正確で計算効率の高い環境予測を提供できるか？
RQ2状態空間モデルは効果的なモデルベースRLを実現できるか、そしてI2Aはそのようなモデルを活用して難易度の高いALEタスクでモデルフリーベースラインを上回ることができるか？
RQ3不確実性と時間的抽象化（ジャンプしたモデル）を組み込むことで、ロールアウトとプランニングの速度と精度のトレードオフを改善するか？
RQ4蒸留や逆伝播によるモデルへの問いかけを学習することが、モデルベースRLの意思決定に有益か？

主な発見

Model	BOWLING	CENTIPEDE	MS_PACMAN	SURROUND	rel. speed
AR	–	–	1.9 ± —-	–	1.0 ×
RAR	-0.9 ± 3.4	5.6 ± 0.3	4.3 ± 0.5	-0.4 ± 0.1	2.0 ×
dSSM-DET	0.4 ± 0.0	3.5 ± 0.2	0.4 ± 0.3	-0.4 ± 0.1	5.2 ×
dSSM-VAE	0.5 ± 0.0	5.0 ± 1.3	2.4 ± 3.0	0.7 ± 0.0	5.2 ×
sSSM	0.6 ± 0.0	5.6 ± 1.0	4.3 ± 0.3	0.9 ± 0.2	5.2 ×
sSSM (jumpy)	–	–	3.0 ± 2.0	–	13.6 ×

状態空間モデル（ dSSM および sSSM ）は、ピクセル空間の自己回帰モデルに比べて大幅なスピードアップを提供しつつ、競争力のある精度を維持する。
不確実性を持つ確率的状態空間モデル（sSSM）は、いくつかのALEゲームで決定論的な counterparts よりも高い対数尤度を達成する。
ジャンプ（時間的抽象化）SSMsは、非ジャンプの変種と同程度の精度で、巨大なスピードアップ（最大で10倍超）を提供する。
ジャンプSSMを用いるI2AはMS_PACMANでモデルフリーベースラインを上回り、モデルへの問いかけを学習する（蒸留または逆伝播）はI2A系の中で最良の性能を得る。
ロールアウトが少ない場合（例: K=5）には、決定論的SSMが確率的SSMより一般に優れている。安定した信号のため。一方、sSSMsは孤立した状態で環境の不確実性をよりよく捉える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。