QUICK REVIEW

[論文レビュー] Regret Minimization for Partially Observable Deep Reinforcement Learning

Peter Jin, Kurt Keutzer|arXiv (Cornell University)|Oct 31, 2017

Reinforcement Learning in Robotics参考文献 44被引用数 21

ひとこと要約

本論文では、マルコフ的状態を必要とせずに、反事後的後悔最小化を用いてアドバンテージに類似した関数を学習する、アドバンテージベースの後悔最小化（ARM）と呼ばれる深層強化学習アルゴリズムを提案する。価値ベース手法が部分観測下で失敗するのに対し、サンプル非効率性に苦しむポリシー勾配法とは異なり、ARMはドンやマインクラフトにおける3次元ナビゲーション、および遮蔽や限られたフレーム履歴があるPongのプレイといった、部分観測視覚タスクにおいて優れたサンプル効率と頑健性を達成した。

ABSTRACT

Deep reinforcement learning algorithms that estimate state and state-action value functions have been shown to be effective in a variety of challenging domains, including learning control strategies from raw image pixels. However, algorithms that estimate state and state-action value functions typically assume a fully observed state and must compensate for partial observations by using finite length observation histories or recurrent networks. In this work, we propose a new deep reinforcement learning algorithm based on counterfactual regret minimization that iteratively updates an approximation to an advantage-like function and is robust to partially observed state. We demonstrate that this new algorithm can substantially outperform strong baseline methods on several partially observed reinforcement learning tasks: learning first-person 3D navigation in Doom and Minecraft, and acting in the presence of partially observed objects in Doom and Pong.

研究の動機と目的

部分観測性の課題に取り組むこと。観測がマルコフ的ではなく、標準的な価値ベース手法が失敗する状況である。
価値ベース手法のサンプル効率と、ポリシー勾配法の非マルコフ的状況下での頑健性を統合すること。
マルコフ的状態の仮定や再帰的ネットワークを必要としないモデルフリーのアルゴリズムを開発すること。
視覚的かつ部分観測タスク、例えば1人称ナビゲーションや遮蔽のあるアーケードゲームにおける性能向上を図ること。

提案手法

アルゴリズムは、反事後的後悔を近似する累積クリッピングアドバンテージ関数を学習し、部分観測下でも頑健な学習を可能にする。
分散低減のため、平均Q学習にインspiredされた修正版の累積Q関数更新を用いる。
再帰的ネットワークや固定長の観測履歴を避けるために、現在の観測のみから学習し、後悔最小化の原則を応用する。
正の時系列差分法に類似した価値関数更新ルールを採用するが、後悔最小化理論に裏付けられる。
オフポリシーのデータをリプレイバッファを介して用いることで、アドバンテージ関数の更新をサンプル効率よく行う。
観測からアドバンテージ推定値へのマッピングを、深層ニューラルネットワークを用いてエンドツーエンドで学習する。

実験結果

リサーチクエスチョン

RQ1マルコフ的状態の仮定をせず、部分観測性に頑健でありながらも高いサンプル効率を達成できる深層強化学習アルゴリズムは存在するか？
RQ2非マルコフ的視覚環境において、後悔最小化は標準的な価値ベース法やポリシー勾配法と比べてどのように性能を発揮するか？
RQ3ARMは、3次元ナビゲーションや遮蔽のあるアーケードゲームを含む多様な部分観測タスクにどの程度一般化可能か？
RQ4部分観測性が増すに従って、ARMはDQNやTRPOをサンプル効率および最終的性能の面で上回るのか？

主な発見

ドンのコロシアム＋ナビゲーションタスクにおいて、ARMはDQNやTRPOを顕著に上回った。特に遮蔽がある状況では、DQNの性能が急激に低下したが、ARMは安定した性能を維持した。
遮蔽や限られたフレーム履歴があるPongでは、ARMはDQNよりも早く収束し、より信頼性が高かった。一方、TRPOはサンプル効率が低かった。
Pongおよびコロシアム＋タスクのすべてのバージョンにおいて、ARMは部分観測性に強く、優れた性能を維持した。
n=5のバイアスのあるnステップリターン推定器でさえ、ARMはDQNよりも非マルコフ的観測に対してより耐性があり、内在的な頑健性を示した。
ドンやマインクラフトにおける1人称3次元ナビゲーションにおいて、ARMは優れたベースラインを上回り、優れたサンプル効率と最終的性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。