QUICK REVIEW

[論文レビュー] Distributional Soft Actor-Critic with Three Refinements

Jingliang Duan, Wenxuan Wang|arXiv (Cornell University)|Oct 9, 2023

Mosquito-borne diseases and control被引用数 8

ひとこと要約

DSAC-Tは、期待値置換、ツイン値分布、および分散ベースのクリティック勾配調整を導入することで分布的ソフトアクター-クリーチャーを改善し、タスク特異的報酬スケーリングなしで安定した学習と高い性能を実現します。

ABSTRACT

Reinforcement learning (RL) has shown remarkable success in solving complex decision-making and control tasks. However, many model-free RL algorithms experience performance degradation due to inaccurate value estimation, particularly the overestimation of Q-values, which can lead to suboptimal policies. To address this issue, we previously proposed the Distributional Soft Actor-Critic (DSAC or DSACv1), an off-policy RL algorithm that enhances value estimation accuracy by learning a continuous Gaussian value distribution. Despite its effectiveness, DSACv1 faces challenges such as training instability and sensitivity to reward scaling, caused by high variance in critic gradients due to return randomness. In this paper, we introduce three key refinements to DSACv1 to overcome these limitations and further improve Q-value estimation accuracy: expected value substitution, twin value distribution learning, and variance-based critic gradient adjustment. The enhanced algorithm, termed DSAC with Three refinements (DSAC-T or DSACv2), is systematically evaluated across a diverse set of benchmark tasks. Without the need for task-specific hyperparameter tuning, DSAC-T consistently matches or outperforms leading model-free RL algorithms, including SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally, DSAC-T ensures a stable learning process and maintains robust performance across varying reward scales. Its effectiveness is further demonstrated through real-world application in controlling a wheeled robot, highlighting its potential for deployment in practical robotic tasks.

研究の動機と目的

モデルフリー強化学習の連続制御タスクにおける過剰推定バイアスの解消。
タスク特異的報酬スケーリングを必要とせず、分布的価値学習の安定性を向上。
ツイン値分布と洗練された勾配更新による過剰推定の低減。
タスクを跨いで安定した性能を持つ頑健で一般化可能なDSAC変種（DSAC-T）を提供。

提案手法

Z(s,a)のガウス分布を学習する分布的ソフトポリシー反復を採用。
批評家の更新でランダムターゲットを安定した代用ターゲット（期待値）に置換（y_q vs y_z）。
ツイン値分布を導入し、最小平均分布を用いて勾配を計算（過剰推定を緩和）。
固定クリッピング境界を分散ベースの境界b = xi E[sigma(s,a)]に置換し、勾配を分散認識係数omegaでスケーリング。
報酬スケール感度を低減する移動平均更新をクリッピングとスケーリングパラメータに組み込む。
ポリシー更新にはリパラメトリゼーションを用い、目標エントロピーを維持するために温度αを適応。

実験結果

リサーチクエスチョン

RQ1DSAC-TはDSAC-v1や他のベースラインより過剰推定バイアスをより効果的に低減できるか。
RQ2改良点は学習安定性と報酬スケール感度の低減を多様なタスクで向上させるか。
RQ3ツイン値分布と期待値置換は批評家と演者の更新にどのような影響を与えるか。
RQ4分散ベースの勾配調整が報酬大きさに対するロバスト性に与える影響は何か。

主な発見

タスク	DSAC-T	DSAC-v1	SAC	TD3	DDPG	TRPO	PPO
Humanoid-v3	10829 ± 243	9074 ± 286	9335 ± 695	5631 ± 435	5291 ± 662	965 ± 555	6869 ± 1563
Ant-v3	7086 ± 261	6862 ± 53	6427 ± 804	6184 ± 486	4549 ± 788	6203 ± 578	6156 ± 185

DSAC-Tはタスク特異的なハイパーパラメータ調整なしで、試験環境全体で基準となるモデルフリーRLアルゴリズム（SAC、TD3、DDPG、TRPO、PPO）を上回るか同等。
DSAC-v1と比較して、DSAC-Tはより良い学習安定性と最終性能を達成。
ツイン値分布学習は過剰推定を低減し、僅かな過小推定へと寄与することで安定性を高める。
分散ベースのクリッピングと勾配スケーリングは報酬スケールへの感度を緩和し、タスク特異的報酬チューニングの必要性を低減。
DSAC-TはOpenAI Gymベンチマークのベクターおよび画像ベースタスクの両方で高い性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。