Skip to main content
QUICK REVIEW

[論文レビュー] Hybrid TD3: Overestimation Bias Analysis and Stable Policy Optimization for Hybrid Action Space

Thanh-Tuan Tran, Thanh Nguyen Canh|arXiv (Cornell University)|Mar 1, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

この論文は TD3 を離散-連続ハイブリッドアクション空間へ拡張し、過大評価バイアスを分析し、離散アクション分布を周辺化した重み付きクリップQ学習ターゲットを提案して、完全ドメインランダム化下のロボット操作の安定性と性能を向上させる。

ABSTRACT

Reinforcement learning in discrete-continuous hybrid action spaces presents fundamental challenges for robotic manipulation, where high-level task decisions and low-level joint-space execution must be jointly optimized. Existing approaches either discretize continuous components or relax discrete choices into continuous approximations, which suffer from scalability limitations and training instability in high-dimensional action spaces and under domain randomization. In this paper, we propose Hybrid TD3, an extension of Twin Delayed Deep Deterministic Policy Gradient (TD3) that natively handles parameterized hybrid action spaces in a principled manner. We conduct a rigorous theoretical analysis of overestimation bias in hybrid action settings, deriving formal bounds under twin-critic architectures and establishing a complete bias ordering across five algorithmic variants. Building on this analysis, we introduce a weighted clipped Q-learning target that marginalizes over the discrete action distribution, achieving equivalent bias reduction to standard clipped minimization while improving policy smoothness. Experimental results demonstrate that Hybrid TD3 achieves superior training stability and competitive performance against state-of-the-art hybrid action baselines

研究の動機と目的

  • discrete-continuous hybrid actions for robotic manipulation の強化学習における不安定さを動機付け、対処する。
  • 完全ドメインランダization の下で標準 DRL ベースラインを経験的に比較し、TD3 が最も安定したバックボーンであることを特定する。
  • 5つのハイブリッドアルゴリズム間の理論的バイアス順序を導出し、ハイブリッド TD3 のバイアス低減ターゲットを提案する。
  • 4 つの操作タスクでのゼロショット一般化を示し、安定性と競争力のある性能を実証する。

提案手法

  • 離散ビットアクションと連続の 6-DOF 成分を持つパラメータ化ハイブリッドアクション空間を定式化する。
  • ツインクリティック TD3 バックボーンを採用し、離散および連続アクション成分の両方を評価するよう拡張する。
  • ベルマンバックアップにおいて離散アク distribution を周辺化する重み付きクリップQ学習ターゲットを導入する。
  • 5つのハイブリッドアルゴリズム変種間のバイアス順序を確立する理論分析を提供し、選択手法を正当化する。
  • 4つの UF850 ロボット操作タスクに対する状態表現、報酬設計、トレーニングプロトコルを記述する。
Figure 2 : Our proposed DRL system deviates from the traditional Markov Decision Process (MDP) that not only relies on the current trajectory to decide the future but also combines the past trajectories to help the agent learns smoother. This model processes the environment observation $o_{t}$ that
Figure 2 : Our proposed DRL system deviates from the traditional Markov Decision Process (MDP) that not only relies on the current trajectory to decide the future but also combines the past trajectories to help the agent learns smoother. This model processes the environment observation $o_{t}$ that

実験結果

リサーチクエスチョン

  • RQ1 完全ドメインランダム化下でのハイブリッド(離散-連続)アクションRLにおける過大評価バイアスの影響はどの程度か。
  • RQ2 ハイブリッドアクションに対して最も安定した学習を提供するバックボーンDRLアルゴリズムはどれで、なぜか。
  • RQ3 重み付き・分布周辺化ターゲットはハイブリッド TD3 におけるポリシーの滑らかさとバイアス特性を改善するか。
  • RQ4 提案手法とバイアスは操作タスクにおける最先端のハイブリッドベースラインとどう比較されるか。
  • RQ5 学習されたポリシーは完全ドメインランダム化下で未知の物体カテゴリへゼロショット generalization が可能か。

主な発見

Object setAction 0 (%)Action 1 (%)Action 2 (%)Action 3 (%)
Standard set94,25 ± 1,9289,75 ± 4,6680,75 ± 2,5883,25 ± 3,56
Unseen set94,25 ± 1,9290,00 ± 5,1581,75 ± 4,6682,75 ± 2,58
  • TD3 ベースのハイブリッドは SAC、DDPG、PPO ベースラインと比較して激しいドメインランダIZATION下でより高い安定性と性能を示す。
  • 重み付きクリップQ学習ターゲットは離散分布を周辺化し、勾配をより滑らかにしつつ TD3 に類似するバイアス特性を維持する。
  • 5つのハイブリッド変種間の理論的バイアス順序は、密な報酬と大きなランダム化の下で Hybrid TD3 が最も有利(期待バイアスが最小)であることを示す。
  • Hybrid TD3 は 4 つの操作タスクで最も高い最終平均リターンを達成し、未知物体へのゼロショット一般化を示す。
  • 最終ポリシーは標準セットと未知物体セットの両方で高い成功率を示す堅牢な性能を示す(Reach、Pick、Move、Put)。
  • 新しい物体カテゴリへのゼロショット一般化が観察され、標準セットと未知物体セット間で劣化が小さい。
Figure 4 : Estimation bias of the baselines (top row), estimation bias of the proposed methods (middle row), and average return (bottom row) across four manipulation tasks. Solid curves represent mean performance, while shaded areas indicate standard deviations over four independent random seeds.
Figure 4 : Estimation bias of the baselines (top row), estimation bias of the proposed methods (middle row), and average return (bottom row) across four manipulation tasks. Solid curves represent mean performance, while shaded areas indicate standard deviations over four independent random seeds.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。