Skip to main content
QUICK REVIEW

[論文レビュー] Striving for Simplicity in Off-policy Deep Reinforcement Learning

Rishabh Agarwal, Dale Schuurmans|arXiv (Cornell University)|Jul 10, 2019
Reinforcement Learning in Robotics参考文献 8被引用数 48
ひとこと要約

本稿では、マルチヘッドQネットワークのランダムな凸結合にベルマン整合性を強制する、シンプルなオフポリシー深層強化学習アルゴリズムであるRandom Ensemble Mixture(REM)を提案する。REMは、オンラインDQNデータのみで学習されるが、バッチQR-DQNおよびオンラインC51を上回る性能を示し、オフポリシー強化学習における性能向上の主な要因は、分布学習や複雑な探索戦略ではなく、より良い利用(exploitation)であることを示している。

ABSTRACT

Reflecting on the advances of off-policy deep reinforcement learning (RL) algorithms since the development of DQN in 2013, it is important to ask: are the complexities of recent off-policy methods really necessary? In an attempt to isolate the contributions of various factors of variation in off-policy deep RL and to help design simpler algorithms, this paper investigates a set of related questions: First, can effective policies be learned given only access to logged offline experience? Second, how much of the benefits of recent distributional RL algorithms is attributed to improvements in exploration versus exploitation behavior? Third, can simpler off-policy RL algorithms outperform distributional RL without learning explicit distributions over returns? This paper uses a batch RL experimental setup on Atari 2600 games to investigate these questions. Unexpectedly, we find that batch RL algorithms trained solely on logged experiences of a DQN agent are able to significantly outperform online DQN. Our experiments suggest that the benefits of distributional RL mainly stem from better exploitation. We present a simple and novel variant of ensemble Q-learning called Random Ensemble Mixture (REM), which enforces optimal Bellman consistency on random convex combinations of the Q-heads of a multi-head Q-network. The batch REM agent trained offline on DQN data outperforms the batch QR-DQN and online C51 algorithms.

研究の動機と目的

  • オンライン相互作用を伴わない、完全にオフラインでログされた経験から有効な方策が学習可能かどうかを調査すること。
  • C51 や QR-DQN といった最近の分布学習強化学習アルゴリズムにおける、探索と利用の貢献を分離して検証すること。
  • 分布の帰着確率を明示的にモデル化しない単純なオフポリシー強化学習アルゴリズムが、分布学習強化学習を上回ることが可能かどうかを特定すること。
  • オフラインデータのみを用いて強力な性能を達成する、最小限かつ効果的なオフポリシー強化学習アルゴリズムを設計すること。
  • 現代のオフポリシー強化学習アルゴリズムにおいて、性能向上のためには複雑さが不可欠であるという仮定に疑問を呈すること。

提案手法

  • マルチヘッドQネットワーク内のQヘッドのランダムな凸結合に最適なベルマン整合性を強制する、アンサンブルQ学習の新規変種であるRandom Ensemble Mixture(REM)を提案する。
  • オンライン相互作用を排除するため、DQNエージェントが収集したオフライン経験を用いたバッチ強化学習の枠組みを採用する。
  • 複数のヘッドからのQ値のランダムな凸結合に対して、1回のベルマン更新を適用することで、より頑健な価値推定を促進する。
  • 各ヘッドが異なるQ値推定を学習するマルチヘッドQネットワークアーキテクチャを採用し、REMはそれらを確率的に組み合わせる。
  • ヘッドのランダムな混合に対するベルマン損失を最小化することで、明示的な分布学習を行わずとも価値関数の精度を向上させる。
  • 標準的な深層強化学習最適化手法を用いて、ネットワーク全体をエンドツーエンドで学習させ、シンプルさとスケーラビリティを維持する。

実験結果

リサーチクエスチョン

  • RQ1DQNエージェントが収集したオフラインでログされた経験のみを用いて、有効な方策が学習可能か?
  • RQ2分布学習強化学習の利点は、改善された利用の程度がどの程度寄与しているのか?
  • RQ3分布の帰着確率を明示的にモデル化しない単純なオフポリシーアルゴリズムが、C51 や QR-DQN といった分布学習手法を上回ることが可能か?
  • RQ4Qヘッドのランダムな凸結合にベルマン整合性を強制することは、標準的な分布学習手法よりも優れた性能をもたらすか?
  • RQ5現代のオフポリシー強化学習アルゴリズムの複雑さは、バッチ強化学習設定における高い性能を達成するために真に必要なのだろうか?

主な発見

  • オンラインDQNとは異なり、完全にオフラインのDQN経験のみを用いて学習するバッチ強化学習エージェントが、オンラインDQNを著しく上回る性能を示し、オフラインデータに強力な方策学習に十分な情報が含まれていることを示している。
  • 分布学習強化学習における性能向上は、主に改善された利用によるものであり、向上した探索戦略によるものではないことが、REMが明示的な分布学習を行わずとも成功したことで示された。
  • Qヘッドのランダムな凸結合に基づくシンプルなアルゴリズムであるREMは、同じオフラインデータを用いて学習した場合、バッチQR-DQNおよびオンラインC51の両方を上回る性能を示した。
  • REMの成功は、オフポリシー深層強化学習における優れた性能を達成するためには、帰着確率の明示的モデル化が必須ではないことを示している。
  • Qヘッドのランダム混合にベルマン整合性を強制することで、標準的な分布学習手法よりも正確な価値推定と高いサンプル効率が達成された。
  • これらの結果は、オフポリシー深層強化学習における高性能を達成するためには、アルゴリズムの複雑さが不可欠であるという一般的な仮定に疑問を呈し、シンプルさが十分である可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。