[논문 리뷰] RUDDER: Return Decomposition for Delayed Rewards
RUDDER는 보상 재분배와 반환 분해를 도입하여 지연 보상을 해결하고, LSTM 기반 반환 분해를 통해 강화학습(RL)을 회귀 문제로 바꾸며, 상당한 속도 향상과 Atari 성능 향상을 가져온다.
We propose RUDDER, a novel reinforcement learning approach for delayed rewards in finite Markov decision processes (MDPs). In MDPs the Q-values are equal to the expected immediate reward plus the expected future rewards. The latter are related to bias problems in temporal difference (TD) learning and to high variance problems in Monte Carlo (MC) learning. Both problems are even more severe when rewards are delayed. RUDDER aims at making the expected future rewards zero, which simplifies Q-value estimation to computing the mean of the immediate reward. We propose the following two new concepts to push the expected future rewards toward zero. (i) Reward redistribution that leads to return-equivalent decision processes with the same optimal policies and, when optimal, zero expected future rewards. (ii) Return decomposition via contribution analysis which transforms the reinforcement learning task into a regression task at which deep learning excels. On artificial tasks with delayed rewards, RUDDER is significantly faster than MC and exponentially faster than Monte Carlo Tree Search (MCTS), TD(λ), and reward shaping approaches. At Atari games, RUDDER on top of a Proximal Policy Optimization (PPO) baseline improves the scores, which is most prominent at games with delayed rewards. Source code is available at \url{https://github.com/ml-jku/rudder} and demonstration videos at \url{https://goo.gl/EQerZV}.
연구 동기 및 목표
- 유한한 MDP에서 지연된 보상으로 인한 장기 크레딧 할당 문제를 해결한다.
- 미래 보상의 기대값이 영인 반환 동등 SDPs를 만들기 위해 보상 재분배를 도입한다.
- 효율적인 학습을 위해 RL을 회귀 문제로 전환하는 반환 분해를 개발한다.
- 상태-행동 기여도를 반환에 대한 LSTM 기반 반환 분해를 활용하여 식별한다.
- 합성 과제와 Atari 게임에서 TD, MC, MCTS 및 보상 형성에 비해 속도 향상을 보여준다.
제안 방법
- 보상 재분배를 통해 반환 동등 시퀀스 마코프 결정 프로세스(SDP)를 정의한다.
- 미래 보상의 기대값이 영이 되도록 하는 최적의 재분배를 목표로 하여 즉시 보상의 평균으로 Q-값을 추정할 수 있게 한다.
- 시퀀스 반환에 대한 상태-행동 기여를 식별하기 위해 반환 분해를 활용한다.
- 시퀀스 전체의 반환을 예측하는 모델을 학습하기 위해 LSTM 기반 반환 분해를 활용하고 예측 차이로부터 재분배된 보상을 도출한다.
- 단계 기반 학습: 안전한 탐사, 교훈 재생 버퍼, 그런 다음 LSTM 기반 반환 분해.
- 재분배된 보상을 Q-학습, 정책 기울기 또는 PPO 기반 프레임워크에 통합한다(예: 재분배 보상과 함께하는 PPO).
실험 결과
연구 질문
- RQ1보상 재분배가 최적 정책을 보존하는 동시에 미래 보상의 기대값이 영인 반환 동등 SDPs를 생성할 수 있는가?
- RQ2기여 분석을 통한 반환 분해가 전체 에피소드를 회귀하여 지연 보상으로부터 효과적으로 학습을 가능하게 하는가?
- RQ3합성 지연 보상 과제와 Atari 게임에서 RUDDER의 성능이 TD, MC, MCTS 및 보상 형성과 어떻게 비교되는가?
- RQ4이 설정에서 피드포워드 모델에 비해 반환 분해에 LSTM을 사용하는 실용적 이점은 무엇인가?
주요 결과
- RUDDER는 TD(λ), MC, MCTS, 보상 형성에 비해 인공적인 지연 보상 과제에서 상당한 속도 향상을 달성한다.
- 최적의 보상 재분배는 이론적으로 미래 보상의 기대값을 영으로 만들며 Q-값 추정을 즉시 보상의 평균으로 축소한다.
- 반환 분해는 가장 큰 기여를 하는 상태-행동 쌍을 식별하여 보상의 효율적인 재분배를 가능하게 한다.
- Atari 게임에서 RUDDER는 PPO 기반 베이스라인을 향상시키며 지연 보상이 특징인 게임에서 가장 큰 이점을 보인다.
- 제안된 LSTM 기반 접근법을 이용한 지연 보상의 유한-수평 MDP에서 상당한 성능 향상가 실험으로 나타났다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.