Skip to main content
QUICK REVIEW

[論文レビュー] SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

Kimin Lee, Michael Laskin|arXiv (Cornell University)|Jul 9, 2020
Reinforcement Learning in Robotics被引用数 46
ひとこと要約

SUNRISE は、Q-集合的不確実性を用いてベルマンバックアップを再重み付けし、探索のための上限信頼区間を使用する、オフポリシー深層強化学習向けの単純な統一エンセmblesフレームワークを提示します。これにより、連続および離散制御タスクでSACとRainbowの性能が向上します。

ABSTRACT

Off-policy deep reinforcement learning (RL) has been successful in a range of challenging domains. However, standard off-policy RL algorithms can suffer from several issues, such as instability in Q-learning and balancing exploration and exploitation. To mitigate these issues, we present SUNRISE, a simple unified ensemble method, which is compatible with various off-policy RL algorithms. SUNRISE integrates two key ingredients: (a) ensemble-based weighted Bellman backups, which re-weight target Q-values based on uncertainty estimates from a Q-ensemble, and (b) an inference method that selects actions using the highest upper-confidence bounds for efficient exploration. By enforcing the diversity between agents using Bootstrap with random initialization, we show that these different ideas are largely orthogonal and can be fruitfully integrated, together further improving the performance of existing off-policy RL algorithms, such as Soft Actor-Critic and Rainbow DQN, for both continuous and discrete control tasks on both low-dimensional and high-dimensional environments. Our training code is available at https://github.com/pokaxpoka/sunrise.

研究の動機と目的

  • Q学習の不安定性と探索-利用のバランスに起因するオフポリシー深層強化学習の改善と安定性を動機付ける。
  • 既存のオフポリシーRLアルゴリズムと互換性のある、シンプルで統一的なエンセmbles手法を提案する。
  • エンセmblesベースの不確実性が学習信号と探索効率を改善できることを示す。

提案手法

  • Q-ensemble不確実性から導かれる信頼度重みでTDターゲットを再重み付けする重み付きベルマンバックアップを導入する(式5–6)。
  • 重み付きバックアップを、ブートストラップとランダム初期化の多様性と組み合わせて、複数のエージェントを訓練する(ブートストラップエンセmbles)。
  • エンセmbles全体のQ値の平均と標準偏差に基づく上限信頼区間(UCB)探索戦略を使用する(式7)。
  • SUNRISEフレームワークをSAC(連続制御)とRainbow DQN(離散制御)に適用して、ドメインを超えた汎用性を示す。
  • エンセmbles重み付き更新とUCBベースの行動選択を組み合わせ、ソフト方策評価と改善を交互に行う実用的なアルゴリズム(SUNRISE SAC版)を提供する。

実験結果

リサーチクエスチョン

  • RQ1SUNRISEは連続タスクと離散タスクの両方で、SACやRainbow DQNのようなオフポリシーRLアルゴリズムの性能を向上させますか?
  • RQ2ノイズの多い、あるいはスパース報酬の場合に、Q更新のシグナル・ノイズ比を改善する重み付きベルマンバックアップの有効性はどれくらいか。
  • RQ3エンセmbles不確実性を用いたUCBベースの探索は、スパース報酬のタスクで探索を改善しますか?
  • RQ4SUNRISEは、より多くの更新やより大きな単一ネットワークを使用するだけ以上の利得を提供しますか?
  • RQ5エンセmblesのサイズは環境全体での性能と安定性にどう影響しますか?

主な発見

  • SUNRISEは連続制御ベンチマークでSACの性能を一貫して向上させ、離散ベンチマークではRainbowの性能を向上させる。
  • 重み付きベルマンバックアップは学習の安定性とデータ効率を高める。特にノイズの多い報酬設定で顕著。
  • エンセmbles不確実性を用いたUCBベースの探索は、スパース報酬タスクで性能を向上させる。
  • SUNRISEの利得は、より多くの更新やより大きな単一ネットワークだけによるものではなく、真のエンセmblesの利点を示している。
  • エンセmblesのサイズを増やすと、ある程度(およそ5エージェント程度)までは有効で、それを超えると収益が低下する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。