QUICK REVIEW

[논문 리뷰] Softmax Deep Double Deterministic Policy Gradients

Ling Pan, Qingpeng Cai|arXiv (Cornell University)|2020. 10. 19.

Reinforcement Learning in Robotics참고 문헌 33인용 수 45

한 줄 요약

본 논문은 볼츠만 소프트맥스 연산자를 연속 제어의 가치 업데이트에 적용해 Softmax Deep Deterministic Policy Gradients(SD2)와 Softmax Deep Double Deterministic Policy Gradients(SD3)를 제시하고, 추정 편향을 줄이며 DDPG, TD3, SAC보다 성능을 향상시킨다.

ABSTRACT

A widely-used actor-critic reinforcement learning algorithm for continuous control, Deep Deterministic Policy Gradients (DDPG), suffers from the overestimation problem, which can negatively affect the performance. Although the state-of-the-art Twin Delayed Deep Deterministic Policy Gradient (TD3) algorithm mitigates the overestimation issue, it can lead to a large underestimation bias. In this paper, we propose to use the Boltzmann softmax operator for value function estimation in continuous control. We first theoretically analyze the softmax operator in continuous action space. Then, we uncover an important property of the softmax operator in actor-critic algorithms, i.e., it helps to smooth the optimization landscape, which sheds new light on the benefits of the operator. We also design two new algorithms, Softmax Deep Deterministic Policy Gradients (SD2) and Softmax Deep Double Deterministic Policy Gradients (SD3), by building the softmax operator upon single and double estimators, which can effectively improve the overestimation and underestimation bias. We conduct extensive experiments on challenging continuous control tasks, and results show that SD3 outperforms state-of-the-art methods.

연구 동기 및 목표

연속 제어를 위한 액터-크리틱 방법에서 과대추정 및 과소추정 편향을 동기 부여하고 해결한다.
연속 행동 공간에서 볼츠만 소프트맥스 연산자를 이론적으로 분석한다.
값 추정 개선을 위해 단일 추정기(SD2)와 이중 추정기(SD3) 변형을 개발한다.
최적화 지형의 매끄럽게 하는 효과와 실험적 성능 향상을 보여준다.
최신 방법들과 비교하고 샘플 효율성을 평가한다.

제안 방법

연속 행동 공간에서 Q-값에 대한 소프트맥스 연산자를 정의하고 오차 한계(정리 1 및 정리 2)를 도출한다.
단일 크리틱 DDPG 프레임워크에 소프트맥스를 적용하여 중요 샘플링(Eq. 3)을 통한 편향 없는 Q-값 추정을 갖는 SD2를 만든다.
SD2에서 최적화 지형의 매끄러움과 과대추정 감소를 보인다(정리 3).
더블 크리틱 TD3에서 영감을 받은 프레임워크로 확장하여 SD3를 생성하고, 최소 결합된 Q-함수에 대한 소프트맥스(Eq. 5)를 통해 과소추정 편향을 해결한다.
타깃 정책 주변에서 샘플링된 행동과 분산 제어를 위한 클리핑을 통해 알고리즘 세부사항과 실용적 구현을 제공한다(Appendix C).
MuJoCo/OpenAI Gym 과제에서 SD2/SD3를 DDPG, TD3, SAC와 실험적으로 비교하고 절편(ablations)을 포함한다(섹션 5).

실험 결과

연구 질문

RQ1연속 행동 공간에서 소프트맥스 연산자가 최적 가치 함수에 비해 오차를 한정하고 있는가?
RQ2단일 크리틱 방법(SD2)에서 소프트맥스 기반 업데이트가 과대추정을 줄일 수 있는가?
RQ3TD3에 비해 이중 크리틱 방법(SD3)에서 소프트맥스 기반 업데이트가 과소추정 편향을 개선할 수 있는가?
RQ4표준 연속 제어 벤치마크에서 SD2/SD3가 최신 기준(TD3 및 SAC)보다 더 나은 샘플 효율성과 최종 성능을 보이는가?
RQ5액터-크리틱 학습의 최적화 지형에 대한 소프트맥스 연산자의 영향은 무엇인가?

주요 결과

SD3는 표준 연속 제어 과제에서 TD3 및 SAC보다 더 높은 최종 성능과 향상된 안정성을 보인다.
SD2는 과대추정 편향을 줄이고 DDPG에 비해 샘플 효율성을 향상시킨다.
소프트맥스 연산자는 액터 최적화 지형을 부드럽게 하여 학습을 돕는다.
SD3는 이중 추정기 설정에서 소프트맥스를 활용해 TD3에 존재하는 과소추정 편향을 완화한다.
이론적 결과(정리 1–4)는 소프트맥스 오차를 한정하고 SD2/SD3와 기준 방법 간의 편향을 비교한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.