QUICK REVIEW

[論文レビュー] Deep Exploration via Bootstrapped DQN

Ian Osband, Charles Blundell|arXiv (Cornell University)|Feb 15, 2016

Reinforcement Learning in Robotics参考文献 39被引用数 460

ひとこと要約

Bootstrapped DQNは、深層Qネットワークに複数のブートストラップヘッドを導入し、不確実性を定量化し、深い時系列にわたる探索を可能にする。これにより、AtariゲームにおいてDQNよりも学習が速く、性能が向上する。

ABSTRACT

Efficient exploration in complex environments remains a major challenge for reinforcement learning. We propose bootstrapped DQN, a simple algorithm that explores in a computationally and statistically efficient manner through use of randomized value functions. Unlike dithering strategies such as epsilon-greedy exploration, bootstrapped DQN carries out temporally-extended (or deep) exploration; this can lead to exponentially faster learning. We demonstrate these benefits in complex stochastic MDPs and in the large-scale Arcade Learning Environment. Bootstrapped DQN substantially improves learning times and performance across most Atari games.

研究の動機と目的

非線形関数近似器を用いた深層強化学習における効率的な深い探索を動機づける。
DQNフレームワーク内でブートストラップされたニューラルネットワークヘッドを用いて不確実性を推定するスケーラブルな方法を開発する。
計算効率と既存の深層RL手法との適合性を確保しつつ、時系列にわたる探索を可能にする。

提案手法

Q値の近似事後分布を表現するために、K個のブートストラップQ値ヘッドを共有深ネットワークで用いる。
各ヘッドを独自のターゲットネットワークを持つブートストラップデータサブサンプルで訓練し、エピソードレベルの方策選択によって時系列にわたる探索を可能にする。
各エピソード中に1つのヘッドkを一様に選択し、そのエピソードの間はQ_kに従って最適に行動する。
ヘッドを更新する際、TDターゲット y^Q_t = r_t + gamma max_a Q(s_{t+1}, a; theta^-)、theta^-はヘッドごとに定期的に更新されるターゲットネットワークとして用いる。
ブートストラップマスクを用いてどのヘッドが各遷移で訓練されるかを決定し、これらのマスクをリプレイバッファに格納する。
計算効率を維持するためにネットワーク重みを共有し、固定の単純なブートストラップ機構を用いる（オンライン設定でのp = 1など）。

実験結果

リサーチクエスチョン

RQ1ブートストラップされたニューラルネットワークを用いた乱択価値関数は、非線形関数近似器における効果的な深い探索を生み出せるのか。
RQ2ブートストラップDQNは、Atariのような大規模で高次元の環境において、標準のDQNと比較して学習速度と累積報酬を改善するのか。
RQ3深層RLにおいて、探索の多様性と計算効率のバランスをとるためのブートストラップ手順はどのように実装すべきか。
RQ4長い意思決定 horizons のような難しい探索問題や複数のゲームにおける深い探索の定性的・定量的な利点は何か。

主な発見

ブートストラップDQNは、DQNと比較してほとんどのAtariゲームで学習時間を大幅に短縮し性能を向上させる。
本手法は評価対象のゲーム全体で平均して約30%早く人間の性能に到達し、学習過程で累積報酬を改善する。
共有ネットワークを用いたK=10のブートストラップヘッドにより、同じハードウェアでのDQNに対して20%未満のウォールクロック遅延でより迅速な学習を達成する。
比較基準と比べて、Bootstrapped DQNは14ゲームでのAUC-20の平均値を高く達成しており（0.62対0.29、0.37は競合手法）より良い。
各ヘッドが多様で高性能なポリシーを発見し、ε-グリーディ戦略より豊かな探索を可能にし、アンサンブル投票が不確実性を反映する。
本手法は計算的に効率的で並列化が可能であり、大規模な深層RLアプリケーションに適している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。