QUICK REVIEW

[論文レビュー] How to Discount Deep Reinforcement Learning: Towards New Dynamic Strategies

Vincent François-Lavet, Raphaël Fonteneau|arXiv (Cornell University)|Dec 7, 2015

Reinforcement Learning in Robotics参考文献 18被引用数 80

ひとこと要約

本稿では、深層Qネットワーク（DQN）における学習過程において、割引因子γを動的に増加させるとともに学習率を調整する手法を提案する。この手法により、Atari 2600ゲームにおける学習ステップ数を著しく削減し、性能向上を達成した。初期段階では短期的報酬に重きを置き、徐々に長期的リターンを重視することで、安定性と収束性が向上し、固定ハイパーパrameterを用いた標準DQNを上回る性能を発揮した。

ABSTRACT

Using deep neural nets as function approximator for reinforcement learning tasks have recently been shown to be very powerful for solving problems approaching real-world complexity. Using these results as a benchmark, we discuss the role that the discount factor may play in the quality of the learning process of a deep Q-network (DQN). When the discount factor progressively increases up to its final value, we empirically show that it is possible to significantly reduce the number of learning steps. When used in conjunction with a varying learning rate, we empirically show that it outperforms original DQN on several experiments. We relate this phenomenon with the instabilities of neural networks when they are used in an approximate Dynamic Programming setting. We also describe the possibility to fall within a local optimum during the learning process, thus connecting our discussion with the exploration/exploitation dilemma.

研究の動機と目的

動的調整された割引因子γが深層強化学習における学習安定性と収束性に与える影響を調査すること。
γの訓練中における変更によって、近似動的プログラミングにおける深層ニューラルネットワークの不安定性を是正すること。
Atari 2600ゲームにおけるDQNの収束に要する学習ステップ数を削減すること。
γ、学習率、探索の相互作用が局所最適解を回避する上で果たす役割を解明すること。
深層Q学習における適応的ハイパーパrameterスケジューリングのフレームワークを提案すること。

提案手法

訓練ステップに応じて、初期値から最終値（例：0.99）へ徐々に増加する動的割引因子γを導入する。
初期値を高く（例：0.005）設定した学習率（α）を、エポックごとに2％ずつ減少させ、γの増加に伴い学習の安定性を高める。
訓練の安定性を維持するため、修正されたDQNアルゴリズムに経験再生とターゲットネットワークの更新を適用する。
訓練ステップkに対して、γ_k = γ_min + (γ_max - γ_min) * (k / K) というスケジュールに従いγを増加させる学習ルールを実装する。
エージェントが局所最適解に閉じ込められた場合にεを増加させるルールを用いて、探索を適応的に制御する。
γ、α、εを同時にスケジューリングする統合的でアクター・クリティック風のフレームワークを提案する。

実験結果

リサーチクエスチョン

RQ1段階的に増加する割引因子γは、深層Qネットワークの収束速度と最終的パフォーマンスを向上させることができるか？
RQ2γの動的調整は、関数近似におけるニューラルネットワークの不安定性とどのように作用するか？
RQ3動的γと減少する学習率の組み合わせは、Q値関数学習におけるより高いサンプル効率と過剰評価の低減に寄与するか？
RQ4動的γは、探索の向上によって局所最適解からの脱出をどの程度支援するか？
RQ5γ、α、εの適応的スケジューリングは、より強固で効率的な深層強化学習アルゴリズムを実現できるか？

主な発見

動的増加する割引因子を用いることで、固定γ = 0.99と比較して、Atari 2600ゲームにおける収束に要する学習ステップ数が削減された。
γの増加と学習率の減少を組み合わせた手法は、全6ゲームで元のDQNを上回り、5000万ステップ後の最終スコアも向上した。
初期γを低くすることで、Q値の過剰評価が軽減され、訓練過程で価値関数Vが減少する傾向が観察された。
初期段階でのγの低さにより、γが小さい段階での訓練誤差の影響が軽減され、深層Q学習の不安定性が緩和された。
固定ε-グリーディ探索を用いたエージェントは、局所最適解に閉じ込められる場合があったが、適応的探索ルールを導入することで脱出が可能になり、パフォーマンスが向上した。
提案フレームワークは、γ、α、εを同時にスケジューリングすることで、より安定的かつ効率的な学習が実現可能であることを示し、自動ハイパーパrameter適応への道筋を示唆した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。