Skip to main content
QUICK REVIEW

[논문 리뷰] Hybrid TD3: Overestimation Bias Analysis and Stable Policy Optimization for Hybrid Action Space

Thanh-Tuan Tran, Thanh Nguyen Canh|arXiv (Cornell University)|2026. 03. 01.
Reinforcement Learning in Robotics인용 수 0
한 줄 요약

논문은 TD3를 이산-연속 하이브드 행동 공간으로 확장하고, 과대 추정 바이어스를 분석하며, 이산 행동에 대한 가중된 클립드 Q-러닝 타깃을 제안하여 도메인 무작위화 하에서 로봇 조작의 안정성과 성능을 향상시킵니다.

ABSTRACT

Reinforcement learning in discrete-continuous hybrid action spaces presents fundamental challenges for robotic manipulation, where high-level task decisions and low-level joint-space execution must be jointly optimized. Existing approaches either discretize continuous components or relax discrete choices into continuous approximations, which suffer from scalability limitations and training instability in high-dimensional action spaces and under domain randomization. In this paper, we propose Hybrid TD3, an extension of Twin Delayed Deep Deterministic Policy Gradient (TD3) that natively handles parameterized hybrid action spaces in a principled manner. We conduct a rigorous theoretical analysis of overestimation bias in hybrid action settings, deriving formal bounds under twin-critic architectures and establishing a complete bias ordering across five algorithmic variants. Building on this analysis, we introduce a weighted clipped Q-learning target that marginalizes over the discrete action distribution, achieving equivalent bias reduction to standard clipped minimization while improving policy smoothness. Experimental results demonstrate that Hybrid TD3 achieves superior training stability and competitive performance against state-of-the-art hybrid action baselines

연구 동기 및 목표

  • 로봇 조작을 위한 이산-연속 하이브리드 행동에서의 강화학습 불안정성에 대한 동기 부여 및 해결.
  • 전체 도메인 무작위화 하에서 표준 DRL 벤치마크를 실험적으로 비교하여 TD3를 가장 안정적인 백본으로 식별.
  • 다섯 가지 하이브리드 알고리즘에 걸친 이론적 바이어스 순서를 도출하고 하이브리드 TD3를 위한 바이어스 완화 타깃을 제안.
  • 제로샷 일반화로 네 가지 조작 작업에서 안정성 향상 및 경쟁력 있는 성능을 보임.

제안 방법

  • 이산 이진 행동과 연속 6-DOF 구성요소를 갖춘 매개변수화된 하이브드 행동 공간을 공식화.
  • 트윈-크리틱 TD3 백본을 채택하고 이산 및 연속 행동 구성요소를 평가하도록 확장.
  • 벨만 백업에서 이산 행동 분포를 마진하기 위한 가중된 클립드 Q-러닝 타깃을 도입.
  • 다섯 가지 하이브드 알고리즘 변형 간의 바이어스 순서를 확립하고 선택된 접근법을 정당화하는 이론적 분석을 제공.
  • 네 개 UF850 로봇 조작 작업에 대한 상태 표현, 보상 설계 및 훈련 프로토콜을 설명.
Figure 2 : Our proposed DRL system deviates from the traditional Markov Decision Process (MDP) that not only relies on the current trajectory to decide the future but also combines the past trajectories to help the agent learns smoother. This model processes the environment observation $o_{t}$ that
Figure 2 : Our proposed DRL system deviates from the traditional Markov Decision Process (MDP) that not only relies on the current trajectory to decide the future but also combines the past trajectories to help the agent learns smoother. This model processes the environment observation $o_{t}$ that

실험 결과

연구 질문

  • RQ1전체 도메인 무작위화 하에 하이브리드(이산-연속) 액션 RL에서 과대 추정 바이어스의 영향은 무엇인가?
  • RQ2하이브드 액션에 대해 가장 안정적인 학습을 제공하는 백본 DRL 알고리즘은 무엇이며 그 이유는 무엇인가?
  • RQ3가중치가 주어진 분포 마진 타깃이 하이브리드 TD3에서 정책의 매끄러움과 바이어스 특성을 유지하는가?
  • RQ4제안된 방법과 바이어스가 조작 작업에서 최첨단 하이브드 베이스라인과 어떻게 비교되는가?
  • RQ5전체 도메인 무작위화 하에서 학습된 정책이 보지 못한 물체 범주에 제로샷 일반화할 수 있는가?

주요 결과

객체 세트동작 0 (%)동작 1 (%)동작 2 (%)동작 3 (%)
표준 세트94,25 ± 1,9289,75 ± 4,6680,75 ± 2,5883,25 ± 3,56
미지정 세트94,25 ± 1,9290,00 ± 5,1581,75 ± 4,6682,75 ± 2,58
  • TD3 기반 하이브리드가 SAC, DDPG, PPO 벤치마크에 비해 공격적인 도메인 무작화에서 더 우수한 안정성과 성능을 보인다.
  • 가중된 클립드 Q-러닝 타깃은 이산 분포를 마진하고 파생되는 기울기를 더 매끄럽게 하면서 TD3와 유사한 바이어스 특성을 보존한다.
  • 다섯 가지 하이브드 변형 간의 이론적 바이어스 순서는 조밀한 보상과 강한 무작위화 하에서 하이브리드 TD3가 가장 바람직한(가장 낮은) 기대 바이어스를 보인다.
  • 하이브드 TD3가 네 가지 조작 작업에서 최종 평균 수익이 가장 높고 보지 못한 객체에 대한 제로샷 일반화를 보여준다.
  • 최종 정책은 표준 및 미지정 물체 세트에서 높은 성공률로 견고한 성능을 보인다(Reach, Pick, Move, Put).
  • 새로운 물체 범주에 대한 제로샷 일반화가 관찰되며 표준 물체 세트와 미지정 물체 세트 간의 열화가 거의 없다.
Figure 4 : Estimation bias of the baselines (top row), estimation bias of the proposed methods (middle row), and average return (bottom row) across four manipulation tasks. Solid curves represent mean performance, while shaded areas indicate standard deviations over four independent random seeds.
Figure 4 : Estimation bias of the baselines (top row), estimation bias of the proposed methods (middle row), and average return (bottom row) across four manipulation tasks. Solid curves represent mean performance, while shaded areas indicate standard deviations over four independent random seeds.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.