QUICK REVIEW

[논문 리뷰] Controlling Overestimation Bias with Truncated Mixture of Continuous Distributional Quantile Critics

Arsenii Kuznetsov, Pavel Shvechikov|arXiv (Cornell University)|2020. 05. 08.

Model Reduction and Neural Networks참고 문헌 40인용 수 53

한 줄 요약

본 논문은 Truncated Quantile Critics (TQC)를 제시한다. 이는 off-policy 연속 제어에서 과대추정 바이어스를 제어하기 위해 분포 기반의 잘라낸(truncated) 방법이자 앙상블 기반의 방법이며, MuJoCo 벤치마크에서 최첨단 성능을 달성한다.

ABSTRACT

The overestimation bias is one of the major impediments to accurate off-policy learning. This paper investigates a novel way to alleviate the overestimation bias in a continuous control setting. Our method---Truncated Quantile Critics, TQC,---blends three ideas: distributional representation of a critic, truncation of critics prediction, and ensembling of multiple critics. Distributional representation and truncation allow for arbitrary granular overestimation control, while ensembling provides additional score improvements. TQC outperforms the current state of the art on all environments from the continuous control benchmark suite, demonstrating 25% improvement on the most challenging Humanoid environment.

연구 동기 및 목표

Off-policy 연속 제어 학습에서 과대추정 바이어스를 동기 부여하고 해결한다.
분포형 비평가, 분포 자르기, 앙상블을 결합한 실용적 방법(TQC)을 도입한다.
표준 연속 제어 벤치마크에서 향상된 성능을 입증하고 어블레이션(ablations)을 제공한다.

제안 방법

상태와 행동에 조건화된 반환 분포의 분위수를 학습하여 분포형 비평가를 채택한다.
과대추정을 제어하기 위해 예측된 반환 분포의 오른쪽 꼬리를 잘라 상위 원자들을 제거한다.
다수의 분포형 비평가를 앙상블하고 잘라내기 전에 예측치를 모아 강인성을 높인다.
여러 비평가의 원자를 모아 TD 타깃을 계산한 뒤, 자르기를 적용해 Y(s,a)를 형성한다.
각 비평가의 분포와 잘린 타깃 분포 사이의 1-Wasserstein 거리 최소화.
정책을 최적화하여 엔트로피 패널라이즈된 Q 값의 최대화를 목표로 정책을 최적화하되 이중 자르기를 피하기 위해 비자른 Q 추정치를 사용한다.

실험 결과

연구 질문

RQ1연속 제어에서 알레이터릭(내재적) 불확실성을 활용해 과대추정 바이어스를 제어할 수 있는가?
RQ2분포 타깃을 자르고 분포형 비평가를 앙상블하는 것이 기존 방법들보다 편향/ 분산 trade-off를 개선하는가?
RQ3MuJoCo 연속 제어 작업에서 TQC의 성능이 최첨단 방법(SAC, TD3 등)과 비교해 어떠한가?
RQ4원자 수, 드롭된 원자 수, 앙상블 규모와 같은 하이퍼파라미터가 성능과 안정성에 미치는 영향은 무엇인가?

주요 결과

TQC는 테스트된 모든 MuJoCo OpenAI Gym 환경에서 최첨단 성능을 달성했고, 특히 도전적인 Humanoid 작업에서 현저한 이득을 보였다.
자르기와 분포 표현의 결합이 기초선 대비 Q-함수 근사에서 편향과 분산을 모두 감소시킨다.
분포형 비평가의 앙상블이 추가 성능 향상을 제공하나, 중간 규모의 앙상블 이후로는 수익이 감소한다.
분포 표현과 앙상블로 인한 계산적 오버헤드가 있으며, 학습 시간 비교로 정량화된다.
어블레이션은 자르기와 분위수 표현이 성능 향상의 핵심 요인임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.