QUICK REVIEW
[論文レビュー] UCB Exploration via Q-Ensembles
Richard Y. Chen, Szymon Sidor|arXiv (Cornell University)|Jun 5, 2017
Reinforcement Learning in Robotics参考文献 24被引用数 77
ひとこと要約
本論文は深層Q学習における上限信頼区間 (UCB) 探索戦略を備えた Q-ensemble を導入し、Double DQN および Bootstrapped DQN に対する Atari ゲームの性能を改善させることを示す。
ABSTRACT
We show how an ensemble of $Q^*$-functions can be leveraged for more effective exploration in deep reinforcement learning. We build on well established algorithms from the bandit setting, and adapt them to the $Q$-learning setting. We propose an exploration strategy based on upper-confidence bounds (UCB). Our experiments show significant gains on the Atari benchmark.
研究の動機と目的
- 深層 Q 学習における標準の ε-greedy および Boltzmann 方法を超える探索の改善を動機づける。
- Q* の事後分布を近似するためにQ関数アンサンブルを維持して扱いやすいベイズ風枠組みを開発する。
- 複数の Q-heads を用いたアクション選択のための Ensemble Voting メカニズムを提案する。
- アンサンブルの不確実性を用いて探索を駆動する UCB ベースの探索戦略を導入する。
- Atari ベンチマーク上で競合的なベースラインと比較して経験的に検証する。
提案手法
- K 個の独立に初期化された Q* 関数ヘッドを構築して Q-ensemble (Q1,...,QK) を形成する。
- 安定性のために experience replay バッファとターゲットネットワークを用いた標準的な Bellman 更新を行う。
- 各 Qk の argmax 行動の多数決 (Algorithm 1) によって行動を集約する。
- アンサンブルの経験的標準偏差を平均 Q 値に足して UCB ベースの探索規則を導出する (Equation 13)。
- 二つの探索戦略を提示する: Ensemble Voting (Algorithm 1) と Q-Ensembles を用いた UCB Exploration (Algorithm 2)。
- Atari ゲームの 40M フレームで経験的に評価し、Double DQN、Bootstrapped DQN、カウントベースのベースライン (A3C+) と比較する。
実験結果
リサーチクエスチョン
- RQ1Ensemble Voting は Atari ゲームで Double DQN および Bootstrapped DQN を上回るか?
- RQ2Q-ensembles を用いた UCB 探索戦略は Ensemble Voting を超えて学習をさらに改善するか?
- RQ3Q-ensembles with UCB 探索は A3C+ のようなカウントベース探索法と比較して Atari のゲームカテゴリを横断してどうなるか?
- RQ4これらの手法はどのゲームカテゴリ(Human Optimal、Score Explicit、Dense Reward、Sparse Reward)で優れているか?
- RQ5アンサンブルサイズと探索のハイパーパラメータが性能に与える影響は何か?
主な発見
- Ensemble Voting は Atari ゲームで explicit exploration なしで Double DQN および Bootstrapped DQN を上回る。
- Q-ensembles を用いた UCB 探索は Ensemble Voting を超えるさらなる改善をもたらし、多くのゲームで最高性能を達成。
- 49 該当 Atari ゲーム中、UCB 探索はベースラインと比較して 30 試合で最高の最大平均報酬を達成。
- 200M フレームで訓練された A3C+ と比較して、提案手法は 40M フレームで多くのゲームでより高い平均報酬を達成。
- 全体として、UCB 探索は Human Optimal、Score Explicit、Dense Reward を含む複数のゲームカテゴリで性能を向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。