[논문 리뷰] Addressing Function Approximation Error in Actor-Critic Methods
논문은 actor-critic 방법에서 과대추정 편향(overestimation bias)을 식별하고 TD3를 도입합니다. 이는 clipping된 이중 Q-learning, 지연된 정책 업데이트, 목표 정책 스무딩의 세트로 편향과 분산을 줄이고 OpenAI Gym 연속 제어 태스크에서 우수한 성능을 달성합니다.
In value-based reinforcement learning methods such as deep Q-learning, function approximation errors are known to lead to overestimated value estimates and suboptimal policies. We show that this problem persists in an actor-critic setting and propose novel mechanisms to minimize its effects on both the actor and the critic. Our algorithm builds on Double Q-learning, by taking the minimum value between a pair of critics to limit overestimation. We draw the connection between target networks and overestimation bias, and suggest delaying policy updates to reduce per-update error and further improve performance. We evaluate our method on the suite of OpenAI gym tasks, outperforming the state of the art in every environment tested.
연구 동기 및 목표
- Actor-critic 방법에서 과대추정 편향과 높은 분산이 학습에 해를 가한다는 것을 입증한다.
- Double Q-learning을 actor-critic 프레임워크에 적용하고 확장하여 편향을 줄인다.
- 가치 추정의 수렴을 돕고 학습 안정성을 높이기 위한 메커니즘(타겟 네트워크, 지연된 정책 업데이트, 정책 스무딩)을 개발한다.
- 7개의 OpenAI Gym 연속 제어 태스크에서 TD3를 실험적으로 검증하고 베이스라인과 비교한다.
제안 방법
- 타깃 계산에 두 독립적인 크리틱의 최솟값을 취하는 Clipped Double Q-learning 도입.
- 크리틱 두 개와 두 개의 독립적인 액터를 사용하고 해당 타깃을 함께 사용하여 actor와 critic 업데이트 간의 결합을 줄인다.
- 정책 업데이트를 크리틱 업데이트보다 지연시켜 가치 추정이 수렴한 후 정책 최적화를 수행한다.
- 타깃 액션에 잘린 노이즈를 추가하여 타깃 분산을 줄이는 타깃 정책 스무딩을 적용한다.
- 학습을 안정화하고 업데이트당 오차를 줄이기 위해 느린 업데이트의 타깃 네트워크를 유지한다.
- MuJoCo 연속 제어 태스크에서 평가하고 DDPG, PPO, TRPO, ACKTR, SAC와 비교한다.
실험 결과
연구 질문
- RQ1함수 근사와 함께 하는 actor-critic 방법에서 과대추정 편향과 높은 분산 TD 오차가 발생하는가?
- RQ2Clipped Double Q-learning을 통해 Q 값 추정의 과대추정을 actor-critic 설정에서 줄일 수 있는가?
- RQ3타깃 네트워크, 지연된 정책 업데이트, 타깃 정책 스무딩은 연속 제어 태스크에서 안정성과 성능을 향상시키는가?
주요 결과
| 환경 | TD3 | DDPG | Our DDPG | PPO | TRPO | ACKTR | SAC |
|---|---|---|---|---|---|---|---|
| HalfCheetah | 9636.95 ± 859.065 | 3305.60 | 8577.29 | 1795.43 | -15.57 | 1450.46 | 2347.19 |
| Hopper | 3564.07 ± 114.74 | 2020.46 | 1860.02 | 2164.70 | 2471.30 | 2428.39 | 2996.66 |
| Walker2d | 4682.82 ± 539.64 | 1843.85 | 3098.11 | 3317.69 | 2321.47 | 1216.70 | 1283.67 |
| Ant | 4372.44 ± 1000.33 | 1005.30 | 888.77 | 1083.20 | -75.85 | 1821.94 | 655.35 |
| Reacher | -3.60 ± 0.56 | -6.51 | -4.01 | -6.18 | -111.43 | -4.26 | -4.44 |
| InvPendulum | 1000.00 ± 0.00 | 1000.00 | 1000.00 | 1000.00 | 985.40 | 1000.00 | 1000.00 |
| InvDoublePendulum | 9337.47 ± 14.96 | 9355.52 | 8369.95 | 8977.94 | 205.85 | 9081.92 | 8487.15 |
- actor-critic 방법에서 과대추정 편향이 존재하며 학습 품질을 저하시킬 수 있다.
- Clipped Double Q-learning은 표준 Double DQN 변형에 비해 actor-critic 타깃의 과대추정을 크게 줄인다.
- 정책 업데이트를 지연시키고 느린 타깃 네트워크를 사용하면 업데이트당 오차를 감소시키고 학습 안정성을 향상시킨다.
- 타깃 정책 스무딩은 타깃의 분산을 줄이고 더 안전하고 강건한 가치 추정을 이끈다.
- TD3는 최종 성능과 학습 속도 측면에서 7개의 MuJoCo 태스크에서 최첨단 베이스라인에 대응하거나 이를 능가한다.
- 망각 연구에서 CDQ, 지연 업데이트, TPS의 결합 효과가 최상의 성능을 낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.