QUICK REVIEW

[論文レビュー] The Effect of Planning Shape on Dyna-style Planning in High-dimensional State Spaces

Gerhard Holland, Erik Talvitie|arXiv (Cornell University)|Jun 5, 2018

Reinforcement Learning in Robotics参考文献 22被引用数 26

ひとこと要約

本稿は、高次元のAtari環境におけるDynaスタイルのモデルベース強化学習の有効性に、計画の形状—特にロールアウトの長さ—が与える影響を調査する。長めで少ないロールアウトが、1ステップのロールアウトでさえも、完璧なモデルや学習済みモデルを用いても、より多様な経験を生成し、サンプル効率を顕著に向上させることを発見した。これは、複雑な領域におけるモデルベース強化学習の設計要因として、計画の形状が極めて重要であることを示している。

ABSTRACT

Dyna is a fundamental approach to model-based reinforcement learning (MBRL) that interleaves planning, acting, and learning in an online setting. In the most typical application of Dyna, the dynamics model is used to generate one-step transitions from selected start states from the agent's history, which are used to update the agent's value function or policy as if they were real experiences. In this work, one-step Dyna was applied to several games from the Arcade Learning Environment (ALE). We found that the model-based updates offered surprisingly little benefit over simply performing more updates with the agent's existing experience, even when using a perfect model. We hypothesize that to get the most from planning, the model must be used to generate unfamiliar experience. To test this, we experimented with the "shape" of planning in multiple different concrete instantiations of Dyna, performing fewer, longer rollouts, rather than many short rollouts. We found that planning shape has a profound impact on the efficacy of Dyna for both perfect and learned models. In addition to these findings regarding Dyna in general, our results represent, to our knowledge, the first time that a learned dynamics model has been successfully used for planning in the ALE, suggesting that Dyna may be a viable approach to MBRL in the ALE and other high-dimensional problems.

研究の動機と目的

高次元状態空間におけるDynaスタイルのモデルベース強化学習の性能に、計画の形状—特にロールアウトの長さと頻度—が与える影響を調査すること。
Arcade Learning Environment (ALE)という、モデルベース強化学習にとって挑戦的な領域において、学習済みダイナミクスモデルを用いたモデルベース計画が、サンプル効率の向上をもたらすかどうかを特定すること。
長めのロールアウトによって生成される生じない経験が、モデルベース計画の利点を実現するために不可欠であるかどうかを検討すること。
さまざまな価値関数学習者、事前学習済みモデル、およびオンライン学習済みモデルを用いて、計画形状のロバストネスを評価すること。
将来的な実践者に対して、限られた計算リソースのもとでDynaスタイルエージェントの計画をどのように構造化すべきか、パフォーマンスを最大化するための実用的ガイダンスを提供すること。

提案手法

DQNベースのエージェントに、状態の最近の経験バッファからのシミュレーテッドロールアウトを生成するためのダイナミクスモデルを組み合わせ、ALEでDynaスタイルの計画を適用した。
1ステップのロールアウト（標準的なDyna-Q）と、長めで少ないロールアウト（例：5〜10ステップ）の複数の計画形状を比較し、学習効率に与える影響を評価した。
真の環境ダイナミクス（完全なモデル）と、価値関数とともにオンラインで学習されたモデルを用い、モデル精度の変動に応じたパフォーマンスを評価した。
標準的なALE評価プロトコルとサンプル効率指標を用いて、6つのAtariゲーム（例：Ms. Pac-Man、Seaquest、Asterix）で性能を評価した。
モデルの信頼性とロールアウトの質を監視し、モデルの不完全性が、特に長めのロールアウトにおいて計画の有効性に与える影響を理解した。
生成モデル（例：VAEやGAN）を用いて、計画のための有望な未訪問状態を特定する可能性のある手法を検討したが、本研究では実装していない。

実験結果

リサーチクエスチョン

RQ1計画の形状—特にロールアウトの長さ—が、高次元のAtari環境におけるDynaスタイルのモデルベース強化学習のサンプル効率に顕著な影響を与えるか？
RQ2学習済みダイナミクスモデルをDynaスタイル計画で用いる場合、ALEにおいてサンプル効率の向上が達成可能か。もしそうであれば、どのような条件下で達成されるか？
RQ3モデルベース計画の主な利点が、新規でなじみのない経験を生成することに起因するのか。また、これはロールアウトの長さに依存するか？
RQ4モデル品質に応じてDynaスタイル計画のパフォーマンスはどのように変化するか。また、最適な計画形状はモデルの信頼性に依存するか？
RQ5不完全なモデルであっても、長めのロールアウトがより正確なモデルを効果的に活用できるか。また、1ステップ更新の回数を増やすのと比較して、その有効性は高いか？

主な発見

長めで少ないロールアウト（例：5〜10ステップ）は、完全なモデルを用いても、1ステップのロールアウトを著しく上回る性能を示し、計画形状が極めて重要な設計要因であることを示した。
1ステップのロールアウトでは、生成された経験がエージェントの既存の実際の経験とあまりに類似していたため、モデルフリーの更新を追加するのとほとんど差がなく、モデルベース計画の利点は最小限にとどまった。
完全なモデルを用いた場合、長めのロールアウトは顕著なサンプル効率の向上をもたらし、モデルの価値が、生じない多様な経験を生成する際に最大限に発揮されることを示した。
オンラインで学習されたモデル（不完全なモデル）を用いても、長めのロールアウトは1ステップのロールアウトを上回るパフォーマンスを示し、3つのゲーム（Asterix、Seaquest、Ms. Pac-Man）では、追加の更新を加えたDQNを上回った。
不完全なモデルでは、信頼性の問題のため、最適なロールアウト長は予測不可能であった。これは、ロールアウト中のモデル精度を監視する適応的計画戦略の必要性を示唆している。
本研究の知見によると、これは、ALEにおいてダイナミクスモデルの学習と計画を組み合わせたサンプル複雑性の恩恵を初めて成功裏に示したとされる。Dynaスタイルのアプローチが高次元領域において実用的であることを強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。