QUICK REVIEW

[논문 리뷰] Addressing Function Approximation Error in Actor-Critic Methods

Scott Fujimoto, Herke van Hoof|arXiv (Cornell University)|2018. 02. 26.

Reinforcement Learning in Robotics참고 문헌 39인용 수 2,362

한 줄 요약

논문은 actor-critic 방법에서 과대추정 편향(overestimation bias)을 식별하고 TD3를 도입합니다. 이는 clipping된 이중 Q-learning, 지연된 정책 업데이트, 목표 정책 스무딩의 세트로 편향과 분산을 줄이고 OpenAI Gym 연속 제어 태스크에서 우수한 성능을 달성합니다.

ABSTRACT

In value-based reinforcement learning methods such as deep Q-learning, function approximation errors are known to lead to overestimated value estimates and suboptimal policies. We show that this problem persists in an actor-critic setting and propose novel mechanisms to minimize its effects on both the actor and the critic. Our algorithm builds on Double Q-learning, by taking the minimum value between a pair of critics to limit overestimation. We draw the connection between target networks and overestimation bias, and suggest delaying policy updates to reduce per-update error and further improve performance. We evaluate our method on the suite of OpenAI gym tasks, outperforming the state of the art in every environment tested.

연구 동기 및 목표

Actor-critic 방법에서 과대추정 편향과 높은 분산이 학습에 해를 가한다는 것을 입증한다.
Double Q-learning을 actor-critic 프레임워크에 적용하고 확장하여 편향을 줄인다.
가치 추정의 수렴을 돕고 학습 안정성을 높이기 위한 메커니즘(타겟 네트워크, 지연된 정책 업데이트, 정책 스무딩)을 개발한다.
7개의 OpenAI Gym 연속 제어 태스크에서 TD3를 실험적으로 검증하고 베이스라인과 비교한다.

제안 방법

타깃 계산에 두 독립적인 크리틱의 최솟값을 취하는 Clipped Double Q-learning 도입.
크리틱 두 개와 두 개의 독립적인 액터를 사용하고 해당 타깃을 함께 사용하여 actor와 critic 업데이트 간의 결합을 줄인다.
정책 업데이트를 크리틱 업데이트보다 지연시켜 가치 추정이 수렴한 후 정책 최적화를 수행한다.
타깃 액션에 잘린 노이즈를 추가하여 타깃 분산을 줄이는 타깃 정책 스무딩을 적용한다.
학습을 안정화하고 업데이트당 오차를 줄이기 위해 느린 업데이트의 타깃 네트워크를 유지한다.
MuJoCo 연속 제어 태스크에서 평가하고 DDPG, PPO, TRPO, ACKTR, SAC와 비교한다.

실험 결과

연구 질문

RQ1함수 근사와 함께 하는 actor-critic 방법에서 과대추정 편향과 높은 분산 TD 오차가 발생하는가?
RQ2Clipped Double Q-learning을 통해 Q 값 추정의 과대추정을 actor-critic 설정에서 줄일 수 있는가?
RQ3타깃 네트워크, 지연된 정책 업데이트, 타깃 정책 스무딩은 연속 제어 태스크에서 안정성과 성능을 향상시키는가?

주요 결과

환경	TD3	DDPG	Our DDPG	PPO	TRPO	ACKTR	SAC
HalfCheetah	9636.95 ± 859.065	3305.60	8577.29	1795.43	-15.57	1450.46	2347.19
Hopper	3564.07 ± 114.74	2020.46	1860.02	2164.70	2471.30	2428.39	2996.66
Walker2d	4682.82 ± 539.64	1843.85	3098.11	3317.69	2321.47	1216.70	1283.67
Ant	4372.44 ± 1000.33	1005.30	888.77	1083.20	-75.85	1821.94	655.35
Reacher	-3.60 ± 0.56	-6.51	-4.01	-6.18	-111.43	-4.26	-4.44
InvPendulum	1000.00 ± 0.00	1000.00	1000.00	1000.00	985.40	1000.00	1000.00
InvDoublePendulum	9337.47 ± 14.96	9355.52	8369.95	8977.94	205.85	9081.92	8487.15

actor-critic 방법에서 과대추정 편향이 존재하며 학습 품질을 저하시킬 수 있다.
Clipped Double Q-learning은 표준 Double DQN 변형에 비해 actor-critic 타깃의 과대추정을 크게 줄인다.
정책 업데이트를 지연시키고 느린 타깃 네트워크를 사용하면 업데이트당 오차를 감소시키고 학습 안정성을 향상시킨다.
타깃 정책 스무딩은 타깃의 분산을 줄이고 더 안전하고 강건한 가치 추정을 이끈다.
TD3는 최종 성능과 학습 속도 측면에서 7개의 MuJoCo 태스크에서 최첨단 베이스라인에 대응하거나 이를 능가한다.
망각 연구에서 CDQ, 지연 업데이트, TPS의 결합 효과가 최상의 성능을 낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.