Skip to main content
QUICK REVIEW

[論文レビュー] Benchmarking Batch Deep Reinforcement Learning Algorithms

Scott Fujimoto, Edoardo Conti|arXiv (Cornell University)|Oct 3, 2019
Reinforcement Learning in Robotics参考文献 42被引用数 160
ひとこと要約

この論文は固定 Atari バッチ設定でオフポリシーおよびバッチ DRL アルゴリズムをベンチマークし、離散行動の BCQ の変種を導入。従来手法を上回ることが多く、しばしば挙動ポリシーと同等かそれを上回る。

ABSTRACT

Widely-used deep reinforcement learning algorithms have been shown to fail in the batch setting--learning from a fixed data set without interaction with the environment. Following this result, there have been several papers showing reasonable performances under a variety of environments and batch settings. In this paper, we benchmark the performance of recent off-policy and batch reinforcement learning algorithms under unified settings on the Atari domain, with data generated by a single partially-trained behavioral policy. We find that under these conditions, many of these algorithms underperform DQN trained online with the same amount of data, as well as the partially-trained behavioral policy. To introduce a strong baseline, we adapt the Batch-Constrained Q-learning algorithm to a discrete-action setting, and show it outperforms all existing algorithms at this task.

研究の動機と目的

  • 現在のオフポリシーおよびバッチ DRL アルゴリズムが統一された Atari バッチ設定でどのように性能を発揮するかを評価する。
  • 離散行動環境での外挿誤差と安定性を評価する。
  • 固定データシナリオにおける離散バッチ DRL の強力で単純なベースラインを特定する。

提案手法

  • 統一された Atari 設定で単一の 10M 転置バッチを用いて、QR-DQN、REM、BCQ、KL-Control、SPIBB-DQN などの複数のバッチ DRL アルゴリズムを再検討・実装する。
  • 離散行動に BCQ を適応させ、強力なベースラインとする。
  • 値推定と安定性分析を通じて外挿誤差を診断する。
  • オンライン DQN とバッチ由来の挙動ポリシーを 9 つの Atari ゲームで比較する。

実験結果

リサーチクエスチョン

  • RQ1単一の挙動ポリシー バッチ設定で標準的なオフポリシー DRL 手法は Atari でうまく機能するか?
  • RQ2BCQ のようなバッチ/制約付き手法は離散行動のバッチ RL で堅牢な性能を発揮できるか?
  • RQ3離散バッチ RL で外挿誤差はどのように現れ、分布的手法や制約的アプローチはそれを緩和するか?
  • RQ4この設定で離散行動 BCQ の相対的な性能は既存のバッチ RL アルゴリズムとどう比較されるか?

主な発見

  • 単一の挙動ポリシー バッチ設定で、標準的なオフポリシー DRL アルゴリズムはオンライン DQN および挙動ポリシーに劣る。
  • QR-DQN は DQN よりしばしば優れるが、一般的にはノイズのある挙動ポリシーには劣る。
  • BCQ のようなバッチ RL 手法は他の手法より優れており、多くの場合ノイズのない挙動ポリシーと同等かそれを上回る。
  • KL-Control は初期の性能が高いが、ゲームを跨いで堅牢ではなく、価値の発散がいくつかのケースで失敗を招いた。
  • 離散行動 BCQ 変種はこの設定で検証済みバッチ DRL 手法の中で最先端の結果を達成。
  • 安定した価値推定はより良いバッチ学習性能と相関し、外挿誤差の緩和が重要であることを強調。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。