QUICK REVIEW

[論文レビュー] SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

Kimin Lee, Michael Laskin|arXiv (Cornell University)|Jul 9, 2020

Reinforcement Learning in Robotics参考文献 60被引用数 47

ひとこと要約

SUNRISE は、アンサンブル不確実性によりターゲット Q 値を再重み付けし、ブートストラップ多様性を用いた上限信頼境界探索で SAC と Rainbow DQN を改善する、連続・離散タスクを跨ぐオフポリシー深層強化学習の単純な統一アンサンブル法です。

ABSTRACT

Off-policy deep reinforcement learning (RL) has been successful in a range of challenging domains. However, standard off-policy RL algorithms can suffer from several issues, such as instability in Q-learning and balancing exploration and exploitation. To mitigate these issues, we present SUNRISE, a simple unified ensemble method, which is compatible with various off-policy RL algorithms. SUNRISE integrates two key ingredients: (a) ensemble-based weighted Bellman backups, which re-weight target Q-values based on uncertainty estimates from a Q-ensemble, and (b) an inference method that selects actions using the highest upper-confidence bounds for efficient exploration. By enforcing the diversity between agents using Bootstrap with random initialization, we show that these different ideas are largely orthogonal and can be fruitfully integrated, together further improving the performance of existing off-policy RL algorithms, such as Soft Actor-Critic and Rainbow DQN, for both continuous and discrete control tasks on both low-dimensional and high-dimensional environments. Our training code is available at https://github.com/pokaxpoka/sunrise.

研究の動機と目的

オフポリシー深層強化学習における不安定性とサンプル非効率性を動機づけ、対処する。
SAC と Rainbow DQN に対応した統一的なアンサンブルフレームワークを提案し、性能向上を図る。
アンサンブル不確実性を活用して Bellman バックアップを再重み付けし、探索を誘導して学習の信号対雑音比を改善する。

提案手法

各エージェント i がアンサンブルターゲット Q-std によって駆動される重み w(s,t) を用いる、アンサンブルに基づく加重 Bellman バックアップを導入: w(s,a)=sigmoid(-Qstd_bar(s,a)*T)+0.5 (Equation 6).
更新時に二値マスク m_{t,i} を使用してエージェント多様性を強制するため、ランダム初期化でブートストラップを適用する。
Q関数全体に対して上界信頼区間 (mean+lambda*std) を用いて探索のための行動を選択: a_t = argmax_a [Q_mean(s_t,a) + lambda Q_std(s_t,a)].
重み付き Bellman バックアップを既存のオフポリシー手法（連続制御には SAC、離散制御には Rainbow DQN）と組み合わせる。
WBB を用いた SAC ベースの学習、ブートストラップマスキング、UCB 探索を詳述するアルゴリズム（SUNRISE）を提供する（Algorithm 1）。
連続および離散タスクの両方へのスケーラビリティと適合性を実証し、アンサンブルサイズの影響を分析する。

実験結果

リサーチクエスチョン

RQ1SUNRISE は連続タスクおよび離散タスクにおいて、SAC や Rainbow DQN のようなオフポリシーRLアルゴリズムを改善しますか？
RQ2学習の安定性とデータ効率を向上させるうえで、重み付き Bellman バックアップはどれほど重要ですか？
RQ3報酬が希薄またはノイズの多い環境で、UCBベースの探索は有益ですか？
RQ4単一の大きなネットワークを使用するだけや、より多くの更新を行うだけではなく、SUNRISE の利得は得られますか？
RQ5アンサンブルサイズは性能にどのように影響し、飽和点はどこですか？

主な発見

SUNRISE は連続制御ベンチマーク全体で SAC を一貫して改善し、OpenAI Gym および DeepMind Control Suite のいくつかのモデルベースベースラインを上回ります。
SUNRISE は Atari ゲームの Rainbow DQN も改善し、複数のゲームで CURL と SimPLe を上回ります。
重み付き Bellman バックアップは学習の安定性とサンプル効率を著しく改善し、特に報酬がノイズの多い設定で顕著である。複雑な環境では DisCor の利得を上回る。
アンサンブルによる UCB 探索は報酬が希少なタスクで性能を向上させる。
アンサンブルの利得は、より多くの更新や大きなネットワークだけによるものではなく、5つのアンサンブルが堅牢な改善をもたらし、5を超えると収益が逓減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。