QUICK REVIEW

[論文レビュー] Softmax Deep Double Deterministic Policy Gradients

Ling Pan, Qingpeng Cai|arXiv (Cornell University)|Oct 19, 2020

Reinforcement Learning in Robotics参考文献 33被引用数 45

ひとこと要約

この論文は Softmax Deep Deterministic Policy Gradients (SD2) および Softmax Deep Double Deterministic Policy Gradients (SD3) を、連続制御における価値更新にボルツマンソフトマックス演算子を適用することで導入し、推定バイアスを低減し DDPG、TD3、SAC より性能を改善する。

ABSTRACT

A widely-used actor-critic reinforcement learning algorithm for continuous control, Deep Deterministic Policy Gradients (DDPG), suffers from the overestimation problem, which can negatively affect the performance. Although the state-of-the-art Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm mitigates the overestimation issue, it can lead to a large underestimation bias. In this paper, we propose to use the Boltzmann softmax operator for value function estimation in continuous control. We first theoretically analyze the softmax operator in continuous action space. Then, we uncover an important property of the softmax operator in actor-critic algorithms, i.e., it helps to smooth the optimization landscape, which sheds new light on the benefits of the operator. We also design two new algorithms, Softmax Deep Deterministic Policy Gradients (SD2) and Softmax Deep Double Deterministic Policy Gradients (SD3), by building the softmax operator upon single and double estimators, which can effectively improve the overestimation and underestimation bias. We conduct extensive experiments on challenging continuous control tasks, and results show that SD3 outperforms state-of-the-art methods.

研究の動機と目的

連続制御の actor-critic 手法における過大評価および過小評価バイアスを動機づけ、対処する。
連続作用空間におけるボルツマンソフトマックス演算子を理論的に分析する。
価値推定を改善するために単一推定器（SD2）および二重推定器（SD3）バリアントを開発して価値推定を改善する。
最適化風景の滑らか化と実証的な性能向上の効果を示す。
最先端の手法と比較し、サンプル効率を評価する。

提案手法

連続作用空間における Q 値上のソフトマックス演算子を定義し、誤差境界を導出する（定理1および定理2）。
ソフトマックスを単一批評家 DDPG フレームワークに組み込み、重要サンプリング（ Eq. 3 ）により unbiased Q 値推定を実現して SD2 を作る。
SD2 で最適化風景の滑らかさと過大評価の低減を示す（定理3）。
二重批評家 TD3 に触発したフレームワークへ拡張して SD3 を作成し、最小結合Q関数上のソフトマックスを用いて過小評価バイアスを解決する（Eq. 5）。
アルゴリズムの詳細と実践的実装を、ターゲット方策の周囲でサンプリングし分散を制御するクリップ付き（Appendix C）で提供。
MuJoCo/OpenAI Gym タスク上で SD2/SD3 を DDPG、TD3、および SAC と実証的に比較し、アブレーション（セクション5）を含む。

実験結果

リサーチクエスチョン

RQ1ソフトマックス演算子は連続作用空間における最適値関数に対する誤差を有界にできるか？
RQ2単一批評家手法（SD2）でソフトマックスベースの更新は過大評価バイアスを減らせるか？
RQ3二重批評家手法（SD3）は TD3 と比較して過小評価バイアスを改善できるか？
RQ4SD2/SD3 は標準的な連続制御ベンチマーク上で最先端のベースライン（TD3 および SAC）よりサンプル効率と最終性能を向上させるか？
RQ5ソフトマックス演算子が actor-critic 学習の最適化風景に及ぼす影響は何か？

主な発見

SD3 は標準的な連続制御タスクで TD3 および SAC を上回り、最終性能が高く安定性が向上する。
SD2 は過大評価バイアスを減らし DDPG よりサンプル効率を改善する。
ソフトマックス演算子は actor 最適化風景を滑らかにし、学習を助ける。
SD3 は TD3 に存在する過小評価バイアスをソフトマックスを二重推定器設定に適用することで緩和する。
理論的結果（定理1–4）はソフトマックス誤差を有界にし、SD2/SD3 とベースライン手法のバイアスを比較する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。