[論文レビュー] Planning to Explore via Self-Supervised World Models
Plan2Explore は潜在的世界モデルとアンサンブルベースの計画を用いた自己教師付き探索を活用し、将来の新規性を追求し、モデル内のイマジネーションを用いてゼロショットまたは少数ショットで下流タスクへ適応します。
Reinforcement learning allows solving complex tasks, however, the learning tends to be task-specific and the sample efficiency remains a challenge. We present Plan2Explore, a self-supervised reinforcement learning agent that tackles both these challenges through a new approach to self-supervised exploration and fast adaptation to new tasks, which need not be known during exploration. During exploration, unlike prior methods which retrospectively compute the novelty of observations after the agent has already reached them, our agent acts efficiently by leveraging planning to seek out expected future novelty. After exploration, the agent quickly adapts to multiple downstream tasks in a zero or a few-shot manner. We evaluate on challenging control tasks from high-dimensional image inputs. Without any training supervision or task-specific interaction, Plan2Explore outperforms prior self-supervised exploration methods, and in fact, almost matches the performances oracle which has access to rewards. Videos and code at https://ramanans1.github.io/plan2explore/
研究の動機と目的
- タスク固有の探索手がかりなしに、未見タスクへ一般化するデータ効率の良い強化学習を動機づける。
- 将来の新規性を事後的に測定するのではなく、積極的に追求する自己監視型探索戦略を開発する。
- 高次元の画像入力から探索と下流タスク計画の双方を支持するグローバル潜在世界モデルを学習する。
- 世界モデル内での想像的ロールアウトを用いて、複数の下流報酬関数への迅速な適応を可能にする。
提案手法
- 画像観測上でELBOを用いて訓練される潜在力学モデル(CNNエンコーダ、RSSMベースの事後と事前、報酬予測子、画像デコーダ)を使用する。
- 潜在的不一致として不確実性を推定するため、一歩予測子のブートストラップアンサンブルを訓練する。
- アンサンブル不一致で近似される情報獲得の期待値を最大化するよう、世界モデル内で探索方策を訓練する。
- 将来の潜在状態を想像して探索を計画し、モデル内でDreamerを用いて探索方策を最適化する。
- 探索後、報酬予測子を用いて世界モデル内でイマジネーションを通じて下流タスク方策を訓練し、ゼロショットまたは少数ショットの適応を可能にする。
実験結果
リサーチクエスチョン
- RQ1潜在的不一致による探索計画は、モデルフリーや他のモデルベースの内発的報酬と比べてゼロショットタスク性能を上回るのか?
- RQ2Plan2Explore が監視付きタスク固有の性能に到達またはそれを上回るために、どれくらいのタスク固有の相互作用が必要か?
- RQ3同じ環境内の未見タスクへ、完全監視のタスク固有モデルより自己監視モデルはより良く一般化するのか?
- RQ4将来の新規性の期待値を最大化することと、事後的な新規性を最大化することの利点は何か?
主な発見
- Plan2Explore はピクセル入力からの20の難易度の高い制御タスクで最先端のゼロショットタスク性能を達成する。
- ゼロショット性能は、探索中の報酬アクセスを持つ監視オラクルと競合し、いくつかのタスクではそれを上回る。
- 探索エピソード1,000件と適応のための監督付きエピソード100–150件で、Plan2Explore は Dreamer においていくつかのタスクで同等かそれを上回る。
- Plan2Explore は複数の下流タスクにまたがる一般化するグローバルな世界モデルを学習する。一方でタスク固有モデルは一般化に失敗する。
- 潜在的不一致による将来の新規性の期待値を最大化することは、事後的な新規性アプローチよりも優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。