QUICK REVIEW

[논문 리뷰] Playing Atari Games with Deep Reinforcement Learning and Human Checkpoint Replay

Ionel-Alexandru Hosu, Traian Rebedea|arXiv (Cornell University)|2016. 07. 18.

Reinforcement Learning in Robotics참고 문헌 18인용 수 76

한 줄 요약

이 논문은 인간이 플레이한 게임 상태를 시작점으로 사용하여 희박한 보상 구조를 가진 Atari 게임에서 탐색을 향상시키는 딥 강화학습 방법인 인간 체크포인트 재생(HCR)을 소개한다. 인간이 생성한 체크포인트에서 학습을 초기화함으로써 HCR DQN 에이전트는 몬테주마의 복수나 프라이빗 아이와 같은 어려운 게임에서 랜덤 에이전트의 성능을 초월해 두 배 이상 높은 점수를 기록한다.

ABSTRACT

This paper introduces a novel method for learning how to play the most difficult Atari 2600 games from the Arcade Learning Environment using deep reinforcement learning. The proposed method, human checkpoint replay, consists in using checkpoints sampled from human gameplay as starting points for the learning process. This is meant to compensate for the difficulties of current exploration strategies, such as epsilon-greedy, to find successful control policies in games with sparse rewards. Like other deep reinforcement learning architectures, our model uses a convolutional neural network that receives only raw pixel inputs to estimate the state value function. We tested our method on Montezuma's Revenge and Private Eye, two of the most challenging games from the Atari platform. The results we obtained show a substantial improvement compared to previous learning approaches, as well as over a random player. We also propose a method for training deep reinforcement learning agents using human gameplay experience, which we call human experience replay.

연구 동기 및 목표

표준 탐색 전략인 ε-그리디가 성공적인 정책을 발견하지 못하는 Atari 2600 게임에서 희박한 보상 문제를 해결한다.
몬테주마의 복수와 프라이빗 아이와 같이 이전 딥 강화학습 접근법으로도 해결되지 않은 매우 어려운 게임에서 샘플 효율성과 학습 성능을 향상시킨다.
인간이 생성한 시작 상태가 학습 가속화와 정책 탐색을 위한 커리큘럼 학습의 형태로 기능할 수 있는지 탐색한다.
지연되거나 희박한 보상이 주어지는 환경에서 인간 체크포인트 재생과 인간 경험 재생 간의 효과성을 평가한다.

제안 방법

딥 Q네트워크(DQN) 학습을 위해 인간이 플레이한 게임 상태(체크포인트)를 초기 상태로 사용하여, 랜덤이 아닌 잠재적으로 성공적인 위치에서 학습을 시작하도록 한다.
경험 재생을 사용한 딥 Q러닝을 통해 원시 픽셀 입력(연속된 네 프레임)을 사용하여 상태 가치 함수를 추정하는 컨volutional 신경망을 학습시킨다.
인간 플레이 트래잭터리에서 체크포인트를 샘플링하여 학습 에피소드의 시작점으로 사용하는 방식으로 인간 체크포인트 재생(HCR)을 구현한다.
인간 경험 재생(HER)과 비교한다. HER는 인간 트래잭터리를 재생 버퍼에 보완하지만, 초기 상태로 사용하지는 않는다.
고정된 인간이 생성한 시작 상태에서 에이전트를 평가하는 인간 시작 상태 평가 지표를 적용하여 공정한 비교를 확보한다.
Arcade Learning Environment(ALE)를 벤치마크 플랫폼으로 사용하며, 희박한 보상 구조와 높은 난이도로 인해 몬테주마의 복수와 프라이빗 아이를 테스트 게임으로 선정한다.

실험 결과

연구 질문

RQ1인간이 생성한 게임 상태는 희박한 보상이 주어지는 Atari 게임에서 딥 강화학습 에이전트의 학습 효율성과 성능을 상당히 향상시킬 수 있는가?
RQ2샘플 효율성과 최종 성능 측면에서 인간 체크포인트 재생은 랜덤 초기화와 인간 경험 재생보다 어떻게 비교되는가?
RQ3몬테주마의 복수와 프라이빗 아이처럼 보상이 지연되고 희박한 게임에서 인간 체크포인트는 탐색 부담을 어느 정도 줄일 수 있는가?
RQ4체크포인트를 통해 간접적으로 인간 지식을 활용할 경우, 순수한 내재적 탐색 전략에 비해 더 나은 정책 탐색이 이루어지는가?

주요 결과

HCR DQN 에이전트는 몬테주마의 복수에서 379.1점의 점수를 기록했으며, 이는 랜덤 에이전트의 177.1점보다 두 배 이상 높은 성과로 상당한 향상을 보였다.
프라이빗 아이에서는 HCR DQN 에이전트가 1264.4점을 기록한 반면, 랜덤 에이전트는 –41점으로 실패를 기록하여 HCR가 랜덤 에이전트가 완전히 실패하는 게임에서 학습을 가능하게 했다는 것을 보여준다.
인간 경험 재생(HER)은 몬테주마의 복수에서 랜덤 에이전트에 비해 약간의 향상(218점)을 보였지만, 이는 희박한 보상 환경에서 원시 인간 트래잭터리 데이터만으로는 효과적인 학습이 불가능하다는 것을 시사한다.
HCR DQN 에이전트는 두 게임 모두에서 주변 보상을 수집하고 위험한 물체를 피하는 등, 랜덤 에이전트에 비해 향상된 탐색 행동을 보였다.
인간 체크포인트를 사용함에도 불구하고, 몬테주마의 복수에서 생명을 잃는 부정적 보상 이벤트를 여전히 피하지 못해, 명시적 보상 형상화의 부족이 정책 정교화를 제한한다는 점을 보여준다.
결과적으로 인간 체크포인트 재생은 커리큘럼 학습 원칙과 결합될 경우, 특히 희박한 보상 환경에서 탐색 과제를 극복하는 데 유망한 접근법임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.