QUICK REVIEW

[논문 리뷰] Deep Learning for Reward Design to Improve Monte Carlo Tree Search in ATARI Games

Xiaoxiao Guo, Satinder Singh|arXiv (Cornell University)|2016. 04. 24.

Artificial Intelligence in Games참고 문헌 29인용 수 28

한 줄 요약

이 논문은 원시 픽셀 입력에서 비선형 보상-보너스 함수를 자동으로 학습하는 데 컨볼루션 신경망을 사용하는 딥 강화학습 방법인 PGRD-DL을 제안한다. 이는 희박한 보상이 주어지는 ATARI 게임에서 UCT 기반 몬테카를로 트리 탐색 성능을 크게 향상시킨다. 지연된 결과를 예측하는 게임에 특화된 상태 표현을 학습함으로써, 수작업 특징 또는 보상 형태 조정 없이도 탐색과 계획의 효율성을 향상시킨다.

ABSTRACT

Monte Carlo Tree Search (MCTS) methods have proven powerful in planning for sequential decision-making problems such as Go and video games, but their performance can be poor when the planning depth and sampling trajectories are limited or when the rewards are sparse. We present an adaptation of PGRD (policy-gradient for reward-design) for learning a reward-bonus function to improve UCT (a MCTS algorithm). Unlike previous applications of PGRD in which the space of reward-bonus functions was limited to linear functions of hand-coded state-action-features, we use PGRD with a multi-layer convolutional neural network to automatically learn features from raw perception as well as to adapt the non-linear reward-bonus function parameters. We also adopt a variance-reducing gradient method to improve PGRD's performance. The new method improves UCT's performance on multiple ATARI games compared to UCT without the reward bonus. Combining PGRD and Deep Learning in this way should make adapting rewards for MCTS algorithms far more widely and practically applicable than before.

연구 동기 및 목표

계산 자원 제약 하에서 희박하고 지연된 보상으로 인해 효과적인 계획이 어려운 기존 몬테카를로 트리 탐색(MCTS)의 한계를 해결하기 위해.
이전의 정책-기반 보상 설계(PGRD) 방법에서 수작업으로 만든 상태-행동 특징에 의존하는 문제를 해결하기 위해, 원시 픽셀 관측에서부터 종단 간 특징 학습을 가능하게 하기 위해.
딥 러닝 프레임워크에 분산 감소 기반 경사 추정기를 통합하여 PGRD의 안정성과 성능을 향상시키기 위해.
학습된 보상 보너스가 지연된 보상을 효과적으로 완화하고, 복잡한 고차원 환경에서 UCT 기반 계획을 향상시킬 수 있음을 입증하기 위해.

제안 방법

원시 픽셀 관측에서 직접 비선형 보상 보너스 함수를 학습하기 위해 다층 컨볼루션 신경망(CNN)을 사용하는 PGRD(정책 기반 보상 설계)를 적응시킨다.
보상 보너스 함수의 정책 기반 최적화에서 훈련의 안정성과 샘플 효율성을 향상시키기 위해 분산 감소 기반 경사 추정기를 사용한다.
행동 선택 점수에 환경 보상과 함께 학습된 보너스를 포함시켜 UCT 알고리즘에 학습된 보상 보너스를 통합한다.
UCT 탐색 중에 수집된 온-폴리시 경험을 사용하여 CNN 기반 보상 보너스 함수를 훈련함으로써, 보너스가 에이전트의 현재 계획 행동에 적응하도록 한다.
보상 보너스가 목표 ATARI 게임에서 UCT 플래너의 성능 향상에 기여하도록 최적화되도록, 미분 가능하고 종단 간 훈련 절차를 적용한다.
Ms. Pacman와 Q*Bert를 포함한 여러 ATARI 게임에 이 방법을 적용하여, 지연된 부정적 결과를 예측하는 게임에 특화된 상태 구분 능력을 학습할 수 있는지를 평가한다.

실험 결과

연구 질문

RQ1딥 신경망은 원시 픽셀 입력에서 비선형적이고 게임에 특화된 보상 보너스를 효과적으로 학습하여 ATARI 게임에서 MCTS 계획 성능을 향상시킬 수 있는가?
RQ2고차원 시각적 입력에 적용했을 때, 분산 감소 기반 경사 추정기를 사용함으로써 PGRD에서 보상 보너스 함수의 훈련이 안정화되고 향상되는가?
RQ3학습된 보상 보너스는 MCTS 기반 계획에서 희박하고 지연된 보상의 영향을 어느 정도 완화할 수 있는가?
RQ4제안된 방법은 수작업 특징 또는 보상 설계 없이 다양한 ATARI 게임에 일반화될 수 있는가?

주요 결과

PGRD-DL은 표준 UCT에 보상 보너스 없이 적용한 경우에 비해 여러 ATARI 게임에서 UCT 성능을 크게 향상시켜, 학습된 보상 형태 조정의 효과를 입증한다.
이 방법은 Ms. Pacman와 Q*Bert에서 위험한 상태를 성공적으로 학습하여, 향후 벌어질 수 있는 보상 감소(예: 적대자 충돌 또는 낙하)가 예정되어 있음을 식별한다.
시각화 결과는 보상 보너스가 상태에 따라 동적으로 변화하며, 서로 다른 맥락에서 다른 행동이 가장 높은 보너스를 받는다는 점을 보여주며, 비트리비어의 맥락 민감한 학습이 이루어졌음을 나타낸다.
Ms. Pacman에서 학습된 보너스는 적대자 쪽으로 향하는 행동에 음수 값을 할당하고, 피하는 행동에 양수 값을 할당하는 등, 목표 보상이 0일지라도 행동에 따라 다르게 반응한다.
Q*Bert에서는 낙하가 발생하기 전에도 피라미드에서 떨어질 위험이 있는 행동에 음수 값을 할당함으로써, UCT가 더 안전한 경로를 향해 유도한다.
학습된 보상 보너스는 지연된 결과를 효과적으로 예측하여, 좋은 성능를 달성하기 위해 깊은 계획이나 많은 수의 궤적을 필요로 하지 않게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.