Skip to main content
QUICK REVIEW

[論文レビュー] Understanding Multi-Step Deep Reinforcement Learning: A Systematic Study of the DQN Target

J. Fernando Hernandez-Garcia, Richard S. Sutton|arXiv (Cornell University)|Jan 22, 2019
Reinforcement Learning in Robotics参考文献 4被引用数 41
ひとこと要約

この論文は、DQNに似たアーキテクチャ内で、オフポリシー補正、バックアップ長さn、ターゲットネットワーク更新頻度に焦点を当て、マウンテンカー環境における多段RLターゲット(Retrace、Q-learning、Tree Backup、Sarsa、Q(sigma))を系統的に比較する。

ABSTRACT

Multi-step methods such as Retrace($λ$) and $n$-step $Q$-learning have become a crucial component of modern deep reinforcement learning agents. These methods are often evaluated as a part of bigger architectures and their evaluations rarely include enough samples to draw statistically significant conclusions about their performance. This type of methodology makes it difficult to understand how particular algorithmic details of multi-step methods influence learning. In this paper we combine the $n$-step action-value algorithms Retrace, $Q$-learning, Tree Backup, Sarsa, and $Q(σ)$ with an architecture analogous to DQN. We test the performance of all these algorithms in the mountain car environment; this choice of environment allows for faster training times and larger sample sizes. We present statistical analyses on the effects of the off-policy correction, the backup length parameter $n$, and the update frequency of the target network on the performance of these algorithms. Our results show that (1) using off-policy correction can have an adverse effect on the performance of Sarsa and $Q(σ)$; (2) increasing the backup length $n$ consistently improved performance across all the different algorithms; and (3) the performance of Sarsa and $Q$-learning was more robust to the effect of the target network update frequency than the performance of Tree Backup, $Q(σ)$, and Retrace in this particular task.

研究の動機と目的

  • オフポリシー補正が、複数のnステップターゲット(Retrace、Q-learning、Tree Backup、Sarsa、Q(sigma))にわたる学習に与える影響を評価する。
  • バックアップ長さパラメータnが、アルゴリズム間の学習性能に及ぼす影響を評価する。
  • 統一されたDQN風アーキテクチャ内で、異なるnステップターゲットの性能と頑健性を比較する。
  • 高度なブーストラッピング手法の学習に対するターゲットネットワーク更新頻度の影響を分析する。
  • 深層エージェントの多段RLコンポーネント設計の指針を提供する。

提案手法

  • Retrace、Q-learning、Tree Backup、Sarsa、Q(sigma)をDQN風ニューラルアーキテクチャ内でnステップターゲットとして実装する。
  • ターゲットネットワークを用いて計算されたnステップリターン G_{t:t+n} に基づく損失を用いる,l(theta_t) = (G_hat_{t:t+n}(theta^-_t) - q(S_t,A_t; theta_t))^2 の形。
  • 適切な場所で重要度サンプリング比とsigmaパラメータを扱えるよう経験再生を適応させる。
  • 固定されたネットワークアーキテクチャ、RMSprop最適化、標準的なDQNハイパーパラメータ(学習率0.00025、リプレイサイズ20,000、バッチ32)でマウンテンカー環境を評価する。
  • オフポリシー補正、nを{1,3,5,10,20}、およびターゲットネットワーク更新頻度(例:500、1000、2000)を変えて実験を行う。

実験結果

リサーチクエスチョン

  • RQ1オフポリシー補正を適用すると、Sarsa、Q(sigma)、Retrace、Tree Backup、Q-learning の最終および初期の学習性能にどう影響するか。
  • RQ2これらの多段ターゲットに対して、バックアップ長nがバイアス/分散と全体的な学習性能に与える影響はどうか。
  • RQ3ターゲットネットワークの更新頻度は、ブーストラップに強く依存するアルゴリズムにどのような影響を与えるか。
  • RQ4この設定でSarsaとQ-learningはオフポリシー補正とターゲットネットワーク動態に頑健か。

主な発見

  • オフポリシー補正は、 naively に使用すると最終的・全体的な性能を低下させる可能性がある一方、初期性能を改善する場合がある。
  • バックアップ長さnを増やすと、一般にアルゴリズム間の性能が向上し、特に初期性能において顕著な利得が得られる。
  • ブーストラッピングに依存する度合いが高いアルゴリズム(Tree Backup、Retrace、Q(sigma))は、SarsaやQ-learningよりターゲットネットワーク更新頻度の影響を受けやすい。
  • オフポリシー補正を使用するかどうかの判断は問題固有であり、早期のオフポリシー利点を活用する混合戦略が有効になる可能性がある。
  • 統一的で統制された研究は、ターゲット定義がバイアス、分散、収束速度、および価値推定の安定性に大きく影響することを確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。