Skip to main content
QUICK REVIEW

[論文レビュー] DORA The Explorer: Directed Outreaching Reinforcement Action-Selection

Leshem Choshen, Lior Fox|arXiv (Cornell University)|Apr 11, 2018
Open Source Software Innovations被引用数 37
ひとこと要約

この論文は、探索的価値を状態・行動の遷移経路にわたり伝播させるモデルフリーな訪問回数の一般化であるE値を導入し、強化学習における指向的探索を可能にする。E値をQ学習に統合し、探索ボーナスを追加することで、収束が速く、性能が優れている。特に、挑戦的なFreeway Atariゲームにおいて、DQNや密度モデルカウンターよりも優れており、約200万ステップで最適性能に到達するのに対し、先行手法は約1000万ステップを要した。

ABSTRACT

Exploration is a fundamental aspect of Reinforcement Learning, typically implemented using stochastic action-selection. Exploration, however, can be more efficient if directed toward gaining new world knowledge. Visit-counters have been proven useful both in practice and in theory for directed exploration. However, a major limitation of counters is their locality. While there are a few model-based solutions to this shortcoming, a model-free approach is still missing. We propose $E$-values, a generalization of counters that can be used to evaluate the propagating exploratory value over state-action trajectories. We compare our approach to commonly used RL techniques, and show that using $E$-values improves learning and performance over traditional counters. We also show how our method can be implemented with function approximation to efficiently learn continuous MDPs. We demonstrate this by showing that our approach surpasses state of the art performance in the Freeway Atari 2600 game.

研究の動機と目的

  • 局所的な訪問回数カウンタの限界を克服するため、探索的価値を遷移経路全体に伝播させる一般化された訪問回数カウンタの提案。
  • 密度モデルや環境モデルに依存しない、効率的で知識に基づいた探索を可能にするモデルフリーなアプローチの開発。
  • 特に複雑な連続的MDPにおいて、サンプル効率と収束速度の向上。
  • E値の有効性を、Freeway Atari 2600ゲームのような実世界のRLベンチマークで実証すること。

提案手法

  • E値を、学習された価値関数を用いて状態・行動の遷移経路に沿って探索的価値を伝播させる訪問回数カウンタの一般化として提案。
  • E値に基づくボーナス項 $ \frac{\beta}{\sqrt{-\log E}} $ を報酬信号に追加し、低E値状態の探索を促進。
  • 2ストリームニューラルネットワークアーキテクチャを採用:1つのストリームはQ値、もう1つのストリームはE値を処理。$ 0 < E < 1 $ を満たすためにロジスティック活性化関数を用いる。
  • $ \epsilon $-greedy行動選択にE値ボーナスを組み合わせ、標準的なDQN学習と互換性を保つ。
  • 関数近似を用いてE値を連続的状態空間および行動空間にスケーリングし、明示的な状態離散化の必要を回避。
  • E値ストリームをゼロ重みで初期化することで、初期段階で $ E \approx 0.5 $ とし、$ 0 < E < 1 $ の制約を満たす。

実験結果

リサーチクエスチョン

  • RQ1E値は、モデルフリーRLにおける指向的探索を可能にするために、訪問回数カウンタを効果的に一般化できるか?
  • RQ2遷移経路全体にわたって探索的価値を伝播させることで、局所的カウンターよりもサンプル効率が向上するか?
  • RQ3E値は、連続的MDPにおいて関数近似を用いて効率的に実装可能か?
  • RQ4E値ボーナスは、密度モデルベース探索と比較して、学習速度と性能の面で優れているか?
  • RQ5E値は、Freewayのような困難な探索環境において、標準DQNや既存の探索ベースラインを上回れるか?

主な発見

  • E値手法は、Atari 2600のFreewayゲームで約200万ステップの訓練で最適性能に到達し、先行手法が要した1000万ステップよりも顕著に速い。
  • 最終的な性能とサンプル効率の両面で、標準DQNおよび密度モデルカウンターよりもE値アプローチが優れていた。
  • 効率的な2ストリームニューラルネットワークアーキテクチャのおかげで、密度モデルカウンターよりも訓練が10倍速かった。
  • E値ボーナスにより、Q値が最適価値関数に収束する速度が速くなったことが、経路固有の収束プロットで示された。
  • 深層ネットワークによる効果的な関数近似のおかげで、連続的MDPにおけるロバストネスとスケーラビリティを示した。
  • E値の使用により、既に知られている高リスク行動への重複した探索が減少し、学習効率が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。