QUICK REVIEW

[論文レビュー] Recurrent World Models Facilitate Policy Evolution

David Ha, Jürgen Schmidhuber|arXiv (Cornell University)|Sep 4, 2018

International Development and Aid被引用数 407

ひとこと要約

本論文は、VAE ベースの視覚エンコーダ (V) と MDN-RNN ダイナミクスモデル (M) からなる学習済み世界モデル内で作用するコンパクトなコントローラ (C) を進化によって訓練する。この世界モデルは CarRacing-v0 の解法と、生成された VizDoom 環境内での学習を可能にし、実環境への転移を実現する。

ABSTRACT

A generative recurrent neural network is quickly trained in an unsupervised manner to model popular reinforcement learning environments through compressed spatio-temporal representations. The world model's extracted features are fed into compact and simple policies trained by evolution, achieving state of the art results in various environments. We also train our agent entirely inside of an environment generated by its own internal world model, and transfer this policy back into the actual environment. Interactive version of paper at https://worldmodels.github.io

研究の動機と目的

視覚入力を圧縮し未来を予測する世界モデル (V, M) の教師なし訓練を実証する。
単純なコントローラ (C) が V と M の特徴を用いて報酬を最大化する進化を遂げられることを示す。
CarRacing-v0 と VizDoom でアプローチを評価して性能ベンチマークを確立する。
生成環境内でポリシーを訓練し、それを実環境へ転送することを探る。

提案手法

各フレームを latent z に符号化する畳み込み VAE (V) を用いる。
次の潜在 z_{t+1} を分布 P(z_{t+1}|a_t,z_t,h_t) として MDN-RNN (M) でモデリングする。
コントローラ C を [z_t, h_t] から行動 a_t へ線形に写像する小さなモデルとして扱い、 CMA-ES で訓練する。
環境の不確実性を制御し、略奪的なポリシーを防ぐために M の温度パラメータ τ を調整する。
V と M を別々に訓練（教師なし）し、C を進化させて期待累積報酬を最大化する。
C が生成された環境で訓練され、実環境へ転送できる完全な潜在空間 RL 設定を実証する。

実験結果

リサーチクエスチョン

RQ1学習された予測世界モデルに導かれて、進化によって訓練されたコンパクトなコントローラは報酬を最大化できるか。
RQ2V（圧縮）と M（予測）を組み合わせ、単純な C でピクセルからの高次元制御タスクを解決できるか。
RQ3世界モデル生成環境内で訓練されたエージェントはポリシーを実環境へ転送できるか。
RQ4世界モデルの不確実性 τ の変化はポリシーの利用可能性と転送性にどのように影響するか。

主な発見

CarRacing-v0 において、V、M、C で構成される完全世界モデルは 906 ± 21 を達成し、従来の Deep RL 手法を上回った。
C の入力に z_t だけでなく h_t も含めると、安定性と能力が向上し、632 ± 251 から 906+ へ改善した。
VizDoom では生成環境内で訓練した後に実ゲームへ転送すると 1092 タイムステップを達成し、750 の目標を上回り、仮想環境のスコアは約 918 ± 546。
V と M は手作り特徴量なしに生のピクセルから直接ナビゲーションを可能にし、小さな線形コントローラと競合する結果を示した。
MDN-RNN の温度 τ を変化させると不確実性が高いほど利用のしやすさが低下し、実環境への転送が改善される可能性がある（例：最良の転送は τ ≈ 1.15 周辺で観測）。
このアプローチは、世界模型ベースの訓練と不確実性制御を用いた sim-to-real の実用的な道筋を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。