QUICK REVIEW

[論文レビュー] The Predictron: End-To-End Learning and Planning

David Silver, Hado van Hasselt|arXiv (Cornell University)|Dec 28, 2016

Reinforcement Learning in Robotics参考文献 23被引用数 88

ひとこと要約

Predictronは、想像された軌道にわたり抽象的マルコフ報酬過程（MRP）をアンロールすることで価値関数を予測する、計画と学習を統合したエンドツーエンドで微分可能なディープラーニングアーキテクチャである。複数の計画深さにおける自己整合的な価値予測を学習することで、迷路やプールシミュレーションタスクにおいて従来のモデルフリーなディープネットワークを上回り、著しく高い精度とアーキテクチャ選択に対するロバストネスを達成した。

ABSTRACT

One of the key challenges of artificial intelligence is to learn models that are effective in the context of planning. In this document we introduce the predictron architecture. The predictron consists of a fully abstract model, represented by a Markov reward process, that can be rolled forward multiple "imagined" planning steps. Each forward pass of the predictron accumulates internal rewards and values over multiple planning depths. The predictron is trained end-to-end so as to make these accumulated values accurately approximate the true value function. We applied the predictron to procedurally generated random mazes and a simulator for the game of pool. The predictron yielded significantly more accurate predictions than conventional deep neural network architectures.

研究の動機と目的

モデルベース強化学習における別々に訓練されたモデルとプランナの間の乖離を是正するため、学習と計画を1つのエンドツーエンドフレームワークに統合すること。
多様な擬似報酬関数と割引率で訓練することで、複数の予測タスクに一般化可能なモデルを開発すること。
制御不能な環境における価値予測の正確性を向上させるために、真の環境の結果と整合するが、ピクセル単位の正確さを必要としない抽象的で非ピクセル完全な内部表現を学習すること。
複数の想像された計画ステップにわたり報酬と価値を累積する微分可能なアーキテクチャを通じて、ロバストな計画を可能にすること。
抽象的モデルのエンドツーエンド訓練が、複雑な制御タスクにおいて従来のディープネットワークに比べて優れたパフォーマンスを発揮することを実証すること。

提案手法

Predictronは、複数の想像された計画ステップにわたりアンロールされる再帰的MRPコアを備えたディープニューラルネットワークを用い、報酬と価値推定を累積する。
1回のフォワードパス内で複数の計画深さにおける価値予測を計算し、それらをアンサンブル出力に統合する。
異なる計画深さにおける予測の間で自己整合性を促進する損失関数を用いて、エンドツーエンドで訓練する。
ベクトル値報酬と対角行列型割引をサポートし、擬似報酬関数を通じて複数の予測タスクに一般化する。
各計画ステップにおける予測を動的に組み合わせる学習可能な注目型重み（λ）をアーキテクチャに取り入れ、各軌道ごとに適応的深さを実現する。
内部モデルは完全に抽象的である。状態、行動、報酬、割引空間が現実の環境に対応していなくても、価値予測が真のリターンと整合的であればよい。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドで訓練された抽象的モデルは、従来のディープネットワークよりも価値予測タスクで優れた性能を示せるか？
RQ21つの微分可能なアーキテクチャを通じて計画と学習を統合することで、予測の正確性とロバストネスが向上するか？
RQ3多様な擬似報酬関数で訓練されたモデルは、単一の目的に過剰適合することなく、複数の予測タスクに一般化できるか？
RQ4複数の計画深さにわたる自己整合的価値予測の使用が、パフォーマンスにどのように影響するか？
RQ5人間が理解できない抽象的内部表現ですら、真の環境の結果と整合する正確な価値推定を提供できるか？

主な発見

手続き的に生成された迷路において、Predictronは最先端のモデルフリーなディープネットワークよりも著しく高い正確な価値予測を達成した。
プールシミュレーションドメインでは、Predictronは50エピソード中に27個のボールをポケットに落とす初期条件を選択したが、同程度の深さの畳み込みニューラルネットワークではたった10個にとどまった。
ネットワークの深さなどのアーキテクチャ的選択に対して、Predictronは著しく高いロバストネスを示し、変種のあらゆる状況で一貫して優れた性能を発揮した。
複数の計画深さにわたる自己整合的価値予測の使用が、全体の正確性を向上させる追加の学習信号を提供した。
ピクセル単位の再構成に基づくモデルとは異なり、抽象的でピクセル完全でない表現を用いたことで、より効果的な価値推定が可能になった。
Predictronが選択したロールアウトの動画デモは、複雑な環境における優れた意思決定能力を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。