QUICK REVIEW

[논문 리뷰] Mastering Atari Games with Limited Data

Weirui Ye, Shaohuai Liu|arXiv (Cornell University)|2021. 10. 30.

Reinforcement Learning in Robotics인용 수 40

한 줄 요약

EfficientZero, MuZero를 기반으로 한 모델 기반 시각적 RL 방법은 자체 감독 일관성, 엔드 투 엔드 값 접두 예측, 오프 폴리시 가치 보정을 활용하여 실제 게임 플레이 단 2시간 만에 Atari 100k에서 인간을 능가하는 성능을 달성합니다.

ABSTRACT

Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithm built on MuZero, which we name EfficientZero. Our method achieves 194.3% mean human performance and 109.0% median performance on the Atari 100k benchmark with only two hours of real-time game experience and outperforms the state SAC in some tasks on the DMControl 100k benchmark. This is the first time an algorithm achieves super-human performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200 million frames while we consume 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. We implement our algorithm in an easy-to-understand manner and it is available at https://github.com/YeWR/EfficientZero. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.

연구 동기 및 목표

이미지 기반 RL에서 샘플 효율이 높은 필요성에 대한 동기 부여, 특히 상호 작용이 제한된 실제 작업 요구에 대한 필요성.
Atari 100k 및 DMControl 100k 벤치마크에서도 높은 성능을 유지하면서 데이터 효율성을 높이는 모델 기반 RL 방법 개발.
제한된 데이터의 모델 기반 RL에서 핵심 병목(모델 감독, 상태 동기화, 오프 폴리시 가치 타깃) 식별 및 해결.
이 병목을 극복하고 기존 방법에 비해 경험적 이득을 입증하기 위한 구조적 및 훈련 혁신 제안.

제안 방법

MuZero를 기반으로 한 EfficientZero를 도입하고 세 가지 주요 수정: 강력한 환경 모델 학습을 위한 자체 감독 시계열 일관성, 누적 오류를 완화하기 위한 가치 접두의 엔드 투 엔드 예측, 현재 정책과 타깃을 일치시키기 위한 모델 기반 오프 폴리시 보정.
학습된 전이 이후 인접 관찰 간의 5단계로 펼쳐지는 SimSiam 기반의 자체 감독 일관성 손실을 사용하여 dynamics를 감독합니다.
연속된 잠재 상태의 시퀀스를 소모하는 LSTM으로 가치 접두를 예측하여 MCTS 내의 장기 가치 추정의 안정성을 높입니다.
오래된 궤적의 단기 보상을 재구상하고 해당 상태에서 다시 MCTS를 실행하여 루트 값을 보정하는 오프 폴리시 보정 적용.
MuZero의 핵심 구성요소(표현, 다이나믹스, 보상, 가치, 정책 헤드)를 유지하되 추가 감독 신호와 보정 메커니즘으로 학습합니다.
Atari 100k(26개 게임) 및 DMControl 100k(저차원 작업)에서 샘플 효율성과 성능을 평가합니다.

실험 결과

연구 질문

RQ1모델 기반의 MCTS 주도 RL 알고리즘이 약 100k 환경 단계(대략 2시간의 플레이)로 Atari에서 인간을 능가하는 성능을 달성할 수 있는가?
RQ2자체 감독 시계열 일관성, 엔드 투 엔드 가치 접두 예측, 모델 기반 오프 폴리시 보정이 이미지 기반 RL의 데이터 효율성과 성능을 의미 있게 개선하는가?
RQ3EfficientZero는 Atari 100k 및 DMControl 100k 벤치마크에서 최첨단 데이터 효율성 기법과 비교해 어떤 차이가 나타나는가?
RQ4제한된 데이터 조건에서 어떤 구성 요소가 개선에 가장 기여하는가(일관성, 가치 접두, 오프 폴리시 보정)?

주요 결과

게임	무작위	인간	SimPLe	OTRainbow	CURL	DrQ	SPR	MuZero	EfficientZero
Alien	227.8	7127.7	616.9	824.7	558.2	771.2	801.5	530.0	808.5
Amidar	5.8	1719.5	88.0	82.8	142.1	102.8	176.3	38.8	148.6
Assault	222.4	742.0	527.2	351.9	600.6	452.4	571.0	500.1	1263.1
Asterix	210.0	8503.3	1128.3	628.5	734.5	603.5	977.8	1734.0	25557.8
Bank Heist	14.2	753.1	34.2	182.1	131.6	168.9	380.9	192.5	351.0
BattleZone	2360.0	37187.5	5184.4	4060.6	14870.0	12954.0	16651.0	7687.5	13871.2
Boxing	0.1	12.1	9.1	2.5	1.2	6.0	35.8	15.1	52.7
ChopperCmd	811.0	7387.8	1246.9	1033.3	1058.5	780.3	974.8	1350.0	1117.3
Crazy Climber	10780.5	35829.4	62583.6	21327.8	12146.5	20516.5	42923.6	56937.0	83940.2
Demon Attack	152.1	1971.0	208.1	711.8	817.6	1113.4	545.2	3527.0	13003.9
Freeway	0.0	29.6	20.3	25.0	26.7	9.8	24.4	21.8	21.8
Frostbite	65.2	4334.7	254.7	231.6	1181.3	331.1	1821.5	255.0	296.3
Gopher	257.6	2412.5	771.0	778.0	669.3	636.3	715.2	1256.0	3260.3
Hero	1027.0	30826.4	2656.6	6458.8	6279.3	3736.3	7019.2	3095.0	9315.9
Jamesbond	29.0	302.8	125.3	112.3	471.0	236.0	365.4	87.5	517.0
Kangaroo	52.0	3035.0	323.1	605.4	872.5	940.6	3276.4	62.5	724.1
Krull	1598.0	2665.5	4539.9	3277.9	4229.6	4018.1	3688.9	4890.8	5663.3
Kung Fu Master	258.5	22736.3	17257.2	5722.2	14307.8	9111.0	13192.7	18813.0	30944.8
Ms Pacman	307.3	6951.6	1480.0	941.9	1465.5	960.5	1313.2	1265.6	1281.2
Pong	-20.7	14.6	12.8	1.3	-16.5	-8.5	-5.9	-6.7	20.1
Private Eye	24.9	69571.3	58.3	100.0	218.4	-13.6	124.0	56.3	96.7
Qbert	163.9	13455.0	1288.8	509.3	1042.4	854.4	669.1	3952.0	13781.9
Road Runner	11.5	7845.0	5640.6	2696.7	5661.0	8895.1	14220.5	2500.0	17751.3
Seaquest	68.4	42054.7	683.3	286.9	384.5	301.2	583.1	208.0	1100.2
Up N Down	533.4	11693.2	3350.3	2847.6	2955.2	3180.8	28138.5	2896.9	17264.2

EfficientZero는 Atari 100k에서 평균 194.3% 및 중앙값 109.0%의 인간 표준화 성능을 달성하며 실제 게임 플레이 단 2시간만 사용합니다.
26개 Atari 게임에서 EfficientZero는 평균 170% 및 중앙값 180%의 인간 표준화 점수로 기존 최첨단(SPR)보다 앞섭니다.
Atari 100k에서 EfficientZero는 여러 게임에서 이전 최첨단 방법보다 우수한 성능을 보여 평균 및 중앙값 지표에서 초인간 성능을 달성합니다.
DMControl 100k에서 EfficientZero는 최첨단 결과를 달성하고ground-truth 상태에서 작동하는 SAC 기반 방법과 일치하거나 능가합니다.
추출 연구에서 세 가지 제안 구성 요소 중 하나라도 제거하면 성능이 저하되며, 자체 감독 일관성이 데이터가 한정된 환경에서 가장 큰 감소를 일으켜 그 중요성을 입증합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.