[논문 리뷰] TreeQN and ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning
이 논문은 온라인 계획을 향상시키기 위해 엔드투엔드로 훈련된 전이 모델을 딥 강화 학습에 통합하는 가역적이고 재귀적인 트리 구조 모델인 TreeQN과 ATreeC를 제안한다. 트리 백업을 가역적 연산으로 공식화함으로써, 이 모델들은 가치 추정을 위해 특별히 전이 동역학을 학습한다. n-스텝 DQN, A2C, 가치 예측 네트워크보다 상자 밀기 및 아케이드 게임에서 뛰어난 성능을 보이며, 더 깊은 트리는 종종 더 나은 성능을 내는 경향이 있다.
Combining deep model-free reinforcement learning with on-line planning is a promising approach to building on the successes of deep RL. On-line planning with look-ahead trees has proven successful in environments where transition models are known a priori. However, in complex environments where transition models need to be learned from data, the deficiencies of learned models have limited their utility for planning. To address these challenges, we propose TreeQN, a differentiable, recursive, tree-structured model that serves as a drop-in replacement for any value function network in deep RL with discrete actions. TreeQN dynamically constructs a tree by recursively applying a transition model in a learned abstract state space and then aggregating predicted rewards and state-values using a tree backup to estimate Q-values. We also propose ATreeC, an actor-critic variant that augments TreeQN with a softmax layer to form a stochastic policy network. Both approaches are trained end-to-end, such that the learned model is optimised for its actual use in the tree. We show that TreeQN and ATreeC outperform n-step DQN and A2C on a box-pushing task, as well as n-step DQN and value prediction networks (Oh et al. 2017) on multiple Atari games. Furthermore, we present ablation studies that demonstrate the effect of different auxiliary losses on learning transition models.
연구 동기 및 목표
- 모델 오차가 계획의 유용성을 제한하는 고차원 환경에서 정확한 전이 모델을 학습하는 데 도전하는 것.
- 정책과 가치 함수에 직접 통합된 가역적 트리 구조적 가치 추정 과정을 통해 모델 프리 딥 강화 학습의 샘플 효율성과 계획 정확도를 향상시키는 것.
- 정책과 가치 함수와 함께 전이 모델을 엔드투엔드로 훈련시켜, 관찰 재구성보다 실제 계획 성능을 최적화하도록 보장하는 것.
- 보조 손실이 전이 모델을 환경에 더 강하게 뿌리내리면서 성능을 유지하고 내부 계획의 해석 가능성을 허용할 수 있는지 탐색하는 것.
제안 방법
- TreeQN은 추상 상태 공간에서 공유된 학습된 전이 모델을 적용하여 가역적이고 재귀적인 트리를 구성하며, 보상과 다음 상태 가치를 집계하는 트리 백업을 통해 Q-값을 계산한다.
- 트리 구조는 역전파를 통해 가역적이며, 전이 모델, 보상 헤드, 가치 헤드를 함께 엔드투엔드로 훈련시킬 수 있다.
- ATreeC는 트리 출력 위에 소프트맥스 레이어를 추가하여 확률적 정책 네트워크를 형성함으로써 TreeQN을 확장하여 액터-크리틱 훈련을 가능하게 한다.
- 이 모델은 즉각적인 보상과 할인된 다음 상태 가치의 재귀적 합으로 Q-값을 계산하는 가역적 트리 백업 연산을 사용하며, 트리 노드 간에 공유된 파라미터를 사용한다.
- 전이 모델의 정밀도를 향상시키기 위해 보조 손실을 도입하였으며, 관찰 공간에서의 재구성 손실과 추상 공간에서의 미래 상태 예측이 포함된다.
- 전체 아키텍처는 정책 그래디언트 또는 Q-학습 목표를 사용하여 엔드투엔드로 훈련되며, 전이 모델은 생성적 재구성보다 계획 정확도를 최적화하도록 최적화된다.
실험 결과
연구 질문
- RQ1엔드투엔드로 훈련된 전이 모델을 갖춘 가역적이고 재귀적인 트리 구조 모델이 딥 강화 학습에서 온라인 계획을 향상시킬 수 있는가?
- RQ2관찰 재구성보다 계획 성능을 최적화하기 위해 전이 모델을 훈련시키는 것이 샘플 효율성과 최종 성능을 향상시키는가?
- RQ3TreeQN과 ATreeC에서 더 깊은 트리가 얕은 트리나 표준 DQN 아키텍처보다 더 나은 성능을 낼 수 있는가?
- RQ4전이 모델에 대한 보조 손실이 계획 정확도와 모델의 해석 가능성에 어떤 영향을 미치는가?
- RQ5가역적 트리 탐색을 가치 함수나 정책에 통합하는 것이 복잡한 제어 작업과 아케이드 게임에서 기존의 모델 기반 및 모델 프리 베이스라인을 초월할 수 있는가?
주요 결과
- TreeQN은 26개의 아케이드 게임 중 18개에서 n-스텝 DQN과 가치 예측 네트워크(VPN)를 능가하며, Ms. Pac-Man과 Q*bert와 같은 게임에서 뚜렷한 성과 향상을 보였다.
- ATreeC는 모든 아케이드 환경에서 A2C 성능을 맞추거나 초월했으며, Q*bert와 Krull에서는 더 강력한 성능을 보였지만, Seaquest에서는 정책의 조기 붕괴 문제를 겪었다.
- TreeQN-2는 아케이드에서 인간 정규화 평균 점수 9302를 기록하여, n-스텝 DQN의 최고 보고 점수 7860과 A2C의 8241를 모두 초월했다.
- 상자 밀기 도메인에서는 TreeQN과 ATreeC가 n-스텝 DQN과 A2C를 능가했으며, TreeQN-2는 n-스텝 DQN의 14468보다 높은 최종 점수 15688을 기록했다.
- 더 깊은 트리(예: TreeQN-2)는 종종 얕은 트리보다 더 나은 성능을 내었으며, 이는 재귀적 계획이 가치 추정을 향상시킨다는 것을 시사한다.
- 절단 실험 결과, 보상 함수를 지지하는 것이 성능 향상에 기여하지만, 성능 저하 없이 강하게 지지된 전이 모델을 학습시키는 것은 여전히 열린 과제이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.