Skip to main content
QUICK REVIEW

[論文レビュー] Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics

Arsenii Kuznetsov, Pavel Shvechikov|arXiv (Cornell University)|May 8, 2020
Model Reduction and Neural Networks参考文献 40被引用数 53
ひとこと要約

本論文は Truncated Quantile Critics (TQC) を導入し、オフポリシー連続制御における過大評価バイアスを制御するための分布的、切り捨てられた、アンサンブルベースの手法を提案し、MuJoCo ベンチマークで最先端の結果を達成する。

ABSTRACT

The overestimation bias is one of the major impediments to accurate off-policy learning. This paper investigates a novel way to alleviate the overestimation bias in a continuous control setting. Our method---Truncated Quantile Critics, TQC,---blends three ideas: distributional representation of a critic, truncation of critics prediction, and ensembling of multiple critics. Distributional representation and truncation allow for arbitrary granular overestimation control, while ensembling provides additional score improvements. TQC outperforms the current state of the art on all environments from the continuous control benchmark suite, demonstrating 25% improvement on the most challenging Humanoid environment.

研究の動機と目的

  • オフポリシー連続制御学習における過大評価バイアスを動機づけ、対処する。
  • 分布的批評家、分布の切り捨て、アンサンブルを組み合わせた実用的手法(TQC)を導入する。
  • 標準的な連続制御ベンチマークでの性能向上を実証し、アブレーションを提供する。

提案手法

  • 状態と行動に条件づけられたリターン分布の分位数を学習することで、分布的批評家を採用する。
  • 過大評価を抑制するために、予測リターン分布の右尾を切り捨て、トップアトムを落とす。
  • 複数の分布的批評家をアンサンブルし、切り捨て前に予測をプールしてロバスト性を向上させる。
  • 複数の批評家からアトムをプールしてTDターゲットを計算し、その後切り捨てを適用して Y(s,a) を形成する。
  • 各批評家の分布と切り捨てられたターゲット分布との間の1-ワッサースタイン距離を最小化する。
  • 二重切り捨てを避けるため、非切り捨てQ推定値を用いてエントロピーペナルティ付きQ値を最大化するようにポリシーを最適化する。

実験結果

リサーチクエスチョン

  • RQ1アルエータリック不確実性を活用して連続制御における過大評価バイアスを抑制できるか?
  • RQ2分布的ターゲットを切り捨て、分布的批評家をアンサンブルすることで、既存手法よりもバイアス/分散のトレードオフが改善されるか?
  • RQ3MuJoCo連続制御タスクにおいて、TQCは最先端手法(例:SAC、TD3)と比較してどう性能を示すか?
  • RQ4アトム数、ドロップされたアトム数、アンサンブルサイズなどのハイパーパラメータが性能と安定性に与える影響は?

主な発見

  • TQCは、テストしたすべてのMuJoCo OpenAI Gym環境で最先端の性能を達成し、特に難易度の高いHumanoidタスクで顕著な向上を示す。
  • 切り捨てと分布表現の組み合わせは、ベースラインと比べてQ関数近似のバイアスと分散の両方を低減する。
  • 分布的批評家のアンサンブルは追加の性能向上を提供するが、中程度のアンサンブルサイズを超えるとリターンは縮小する。
  • 分布表現とアンサンブルによる計算オーバーヘッドがあり、学習時間の比較で定量化されている。
  • アブレーションによって、切り捨てとクォンタイル表現が性能向上の主要因であることが示される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。