QUICK REVIEW

[論文レビュー] Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning

Oron Anschel, Nir Baram|arXiv (Cornell University)|Nov 7, 2016

Reinforcement Learning in Robotics参考文献 22被引用数 165

ひとこと要約

Averaged-DQN は DQN を過去の Q 値推定を平均化することでターゲット値の分散を低減し、安定性と Atari ゲームでの性能を向上させる。

ABSTRACT

Instability and variability of Deep Reinforcement Learning (DRL) algorithms tend to adversely affect their performance. Averaged-DQN is a simple extension to the DQN algorithm, based on averaging previously learned Q-values estimates, which leads to a more stable training procedure and improved performance by reducing approximation error variance in the target values. To understand the effect of the algorithm, we examine the source of value function estimation errors and provide an analytical comparison within a simplified model. We further present experiments on the Arcade Learning Environment benchmark that demonstrate significantly improved stability and performance due to the proposed extension.

研究の動機と目的

Function approximation による深層強化学習の不安定さと高分散に対処する。
DQN の単純な拡張として過去に学習した Q 値を平均化する Averaged-DQN を提案する。
ターゲット近似誤差の分散が学習ダイナミクスに与える影響を分析する。
ALE ベンチマークでの安定性と性能の実証的向上を示す。

提案手法

最後の K 個の学習ネットワークの Q 値の平均を用いてターゲットを計算することで DQN を拡張する。
平均化されたターゲットに対する二乗損失を最小化するように現在のネットワークパラメータを更新する。
標準の経験再プレイバッファと ε-greedy 探索を維持する。
ALE ゲームで Averaged-DQN を DQN および Double-DQN と比較し、ターゲット推定の分散低減を分析する。
簡略化した MDP モデルにおける TAEs の分散分析を提供し、Ensemble-DQN と対比する。
Breakout、Seaquest、Asterix を横断する実証結果を報告し、安定性と性能の向上を示す。

実験結果

リサーチクエスチョン

RQ1平均化するターゲットネットワークの数 K を増やすと、値推定誤差や過大評価バイアスにどのような影響を与えるか？
RQ2平均化されたターゲットは ALE ゲームでより安定した学習曲線と改善されたポリシー性能につながるか？
RQ3 Averaged-DQN は分散低減および過大評価緩和の点で Ensemble-DQN とどのように比較されるか？
RQ4DQN が関数近似により不安定になる設定で Averaged-DQN は発散を防ぐことができるか？

主な発見

ゲーム	DQN	Averaged-DQN	Averaged-DQN	Averaged-DQN	人間	ランダム
Breakout	245.1 (124.5)	381.5 (20.2)	381.8 (24.2)	- -	31.8	1.7
Seaquest	3775.2 (1575.6)	5740.2 (664.79 )	9961.7 (1946.9)	10475.1 (2926.6)	20182.0	68.4
Asterix	195.6 (80.4)	6960.0 (999.2)	8008.3 (243.6)	8364.9 (618.6)	8503.0	210.0

K を増やすとターゲット値の誤差分散と過大評価が低減され、訓練がより安定する。
Averaged-DQN は DQN と比較して複数回の実行で平均スコアが高く、変動性が低い。
Breakout、Seaquest、Asterix で K が大きい Averaged-DQN は標準の DQN より性能を向上させ、変動を抑制する。
Averaged-DQN は Ensemble-DQN より分散効率が理論的に高く、TAEs において DQN より少なくとも K 倍の改善を提供する。
DQN が特定のゲーム（例: アステリックス）で発散する現象は Averaged-DQN によって緩和され得る。
実証結果は Averaged-DQN が検証設定で Double-DQN の性能に近づくか上回る可能性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。