Skip to main content
QUICK REVIEW

[論文レビュー] Randomized Ensembled Double Q-Learning: Learning Fast Without a Model

Xinyue Chen, Che Wang|arXiv (Cornell University)|Jan 15, 2021
Machine Learning and ELM参考文献 34被引用数 26
ひとこと要約

REDQ は大規模 Update-To-Data 比率、Q-function のアンサンブル、およびランダムサブセット上でのターゲット内最小化を用いたモデルフリー DRL アルゴリズムであり、MuJoCo 環境における最先端のモデルベース手法と同等かそれ以上の高いサンプル効率を実現します。

ABSTRACT

Using a high Update-To-Data (UTD) ratio, model-based methods have recently achieved much higher sample efficiency than previous model-free methods for continuous-action DRL benchmarks. In this paper, we introduce a simple model-free algorithm, Randomized Ensembled Double Q-Learning (REDQ), and show that its performance is just as good as, if not better than, a state-of-the-art model-based algorithm for the MuJoCo benchmark. Moreover, REDQ can achieve this performance using fewer parameters than the model-based method, and with less wall-clock run time. REDQ has three carefully integrated ingredients which allow it to achieve its high performance: (i) a UTD ratio >> 1; (ii) an ensemble of Q functions; (iii) in-target minimization across a random subset of Q functions from the ensemble. Through carefully designed experiments, we provide a detailed analysis of REDQ and related model-free algorithms. To our knowledge, REDQ is the first successful model-free DRL algorithm for continuous-action spaces using a UTD ratio >> 1.

研究の動機と目的

  • モデル無しで連続行動 DRL において高いサンプル効率を達成する問いを動機付ける。
  • MuJoCo ベンチマークでモデルベース手法に並ぶ、または凌駕する単純なモデルフリーアルゴリズム(REDQ)を提案する。
  • UTD 比、アンサンブル、ターゲット内 minimization がバイアスと学習性能に与える影響を分析する。
  • REDQ のバイアス/分散ダイナミクスに関する理論的・実証的洞察を提供する。
  • 環境横断で頑健性と潜在的な改善(例: 補助特徴学習を伴う)を実証する。

提案手法

  • 大きな UTD 比率 G、N 個の Q-関数のアンサンブル、及びアンサンブル内のランダムサブセット M に対するターゲット最小化の三つの要素を用いて REDQ を導入する。
  • 次状態の Q-ターゲット y を、アンサンブルのすべての Q-関数で共有される、次状態の Q-関数のランダムサブセット M の最小値を用いて計算する。
  • アンサンブル内の各 Q-ネットワークを勾配降下により y に向けて更新し、アンサンブル全体の平均 Q 値を用いてポリシーを更新する。
  • ハイパーパラメータを調整する:一般的に使用される値は G=20、N=10、M=2(実験のデフォルト)。
  • M がバイアスを、N が分散を制御する理論的分析を提供し、更新後のバイアスが M に依存し N には依存しないこと、M を増やすと過大評価バイアスを過小評価へ転換できることを示す。
  • オプションとしてオンライン特徴抽出ネットワーク(OFE)を用いた REDQ-OFE を拡張し、難易度の高いタスクで性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1モデルフリーアルゴリズムが連続行動 DRL ベンチマークでモデルベース手法に匹敵する、あるいはそれを上回るサンプル効率を達成できるか。
  • RQ2Update-To-Data 比、アンサンブルサイズ、ターゲット内最小化がバイアスと学習安定性にどのように影響するか。
  • RQ3REDQ の性能利点を、標準 SAC や Maxmin Q-learning などの連続制御における理論的保証や洞察で説明できるか。
  • RQ4補助表現学習(OFE)を取り入れると、難易度の高いタスクで REDQ の性能がさらに向上するか。

主な発見

  • REDQ は Hopper、Walker2d、Ant、Humanoid の MuJoCo において SAC より速く学習し、MBPO と同等かそれ以上の性能を、パラメータ数を削減しウォールクロック時間を短縮して達成する。
  • G=20、N=10、M=2 で、REDQ は MBPO のサンプル効率に匹敵するかそれ以上を達成し、報告タスクで推定パラメータが 26%~70% 減少し、ウォールクロック時間も概ね 25% 減少する。
  • in-target minimization を含むアンサンブルは、訓練全体で Q バイアスの標準偏差をほぼゼロに近づけ、平均的な負のバイアスも小さく近ゼロを維持し、SAC-20 および AVG と比較して安定かつ高速な学習に寄与する。
  • 固定した M の場合、更新後の期待バイアスは N に依存せず、M を増やすとバイアスが減少する一方、N を増やしても平均バイアスは変わらず分散のみが減少することを理論的に示し、これが Maxmin および AVG に対する REDQ の頑健性と性能向上を説明する。
  • REDQ-OFE を組み合わせた変種は Ant および Humanoid の性能を大幅に向上させ、SAC および MBPO に対して同程度の相互作用回数でサンプル効率の大幅な向上を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。