Skip to main content
QUICK REVIEW

[논문 리뷰] Addressing Function Approximation Error in Actor-Critic Methods

Scott Fujimoto, Herke van Hoof|arXiv (Cornell University)|2018. 02. 26.
Reinforcement Learning in Robotics참고 문헌 39인용 수 2,362
한 줄 요약

논문은 actor-critic 방법에서 과대추정 편향(overestimation bias)을 식별하고 TD3를 도입합니다. 이는 clipping된 이중 Q-learning, 지연된 정책 업데이트, 목표 정책 스무딩의 세트로 편향과 분산을 줄이고 OpenAI Gym 연속 제어 태스크에서 우수한 성능을 달성합니다.

ABSTRACT

In value-based reinforcement learning methods such as deep Q-learning, function approximation errors are known to lead to overestimated value estimates and suboptimal policies. We show that this problem persists in an actor-critic setting and propose novel mechanisms to minimize its effects on both the actor and the critic. Our algorithm builds on Double Q-learning, by taking the minimum value between a pair of critics to limit overestimation. We draw the connection between target networks and overestimation bias, and suggest delaying policy updates to reduce per-update error and further improve performance. We evaluate our method on the suite of OpenAI gym tasks, outperforming the state of the art in every environment tested.

연구 동기 및 목표

  • Actor-critic 방법에서 과대추정 편향과 높은 분산이 학습에 해를 가한다는 것을 입증한다.
  • Double Q-learning을 actor-critic 프레임워크에 적용하고 확장하여 편향을 줄인다.
  • 가치 추정의 수렴을 돕고 학습 안정성을 높이기 위한 메커니즘(타겟 네트워크, 지연된 정책 업데이트, 정책 스무딩)을 개발한다.
  • 7개의 OpenAI Gym 연속 제어 태스크에서 TD3를 실험적으로 검증하고 베이스라인과 비교한다.

제안 방법

  • 타깃 계산에 두 독립적인 크리틱의 최솟값을 취하는 Clipped Double Q-learning 도입.
  • 크리틱 두 개와 두 개의 독립적인 액터를 사용하고 해당 타깃을 함께 사용하여 actor와 critic 업데이트 간의 결합을 줄인다.
  • 정책 업데이트를 크리틱 업데이트보다 지연시켜 가치 추정이 수렴한 후 정책 최적화를 수행한다.
  • 타깃 액션에 잘린 노이즈를 추가하여 타깃 분산을 줄이는 타깃 정책 스무딩을 적용한다.
  • 학습을 안정화하고 업데이트당 오차를 줄이기 위해 느린 업데이트의 타깃 네트워크를 유지한다.
  • MuJoCo 연속 제어 태스크에서 평가하고 DDPG, PPO, TRPO, ACKTR, SAC와 비교한다.

실험 결과

연구 질문

  • RQ1함수 근사와 함께 하는 actor-critic 방법에서 과대추정 편향과 높은 분산 TD 오차가 발생하는가?
  • RQ2Clipped Double Q-learning을 통해 Q 값 추정의 과대추정을 actor-critic 설정에서 줄일 수 있는가?
  • RQ3타깃 네트워크, 지연된 정책 업데이트, 타깃 정책 스무딩은 연속 제어 태스크에서 안정성과 성능을 향상시키는가?

주요 결과

환경TD3DDPGOur DDPGPPOTRPOACKTRSAC
HalfCheetah9636.95 ± 859.0653305.608577.291795.43-15.571450.462347.19
Hopper3564.07 ± 114.742020.461860.022164.702471.302428.392996.66
Walker2d4682.82 ± 539.641843.853098.113317.692321.471216.701283.67
Ant4372.44 ± 1000.331005.30888.771083.20-75.851821.94655.35
Reacher-3.60 ± 0.56-6.51-4.01-6.18-111.43-4.26-4.44
InvPendulum1000.00 ± 0.001000.001000.001000.00985.401000.001000.00
InvDoublePendulum9337.47 ± 14.969355.528369.958977.94205.859081.928487.15
  • actor-critic 방법에서 과대추정 편향이 존재하며 학습 품질을 저하시킬 수 있다.
  • Clipped Double Q-learning은 표준 Double DQN 변형에 비해 actor-critic 타깃의 과대추정을 크게 줄인다.
  • 정책 업데이트를 지연시키고 느린 타깃 네트워크를 사용하면 업데이트당 오차를 감소시키고 학습 안정성을 향상시킨다.
  • 타깃 정책 스무딩은 타깃의 분산을 줄이고 더 안전하고 강건한 가치 추정을 이끈다.
  • TD3는 최종 성능과 학습 속도 측면에서 7개의 MuJoCo 태스크에서 최첨단 베이스라인에 대응하거나 이를 능가한다.
  • 망각 연구에서 CDQ, 지연 업데이트, TPS의 결합 효과가 최상의 성능을 낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.