QUICK REVIEW

[논문 리뷰] Agent57: Outperforming the Atari Human Benchmark

Adrià Puigdomènech Badia, Bilal Piot|arXiv (Cornell University)|2020. 03. 30.

Reinforcement Learning in Robotics참고 문헌 47인용 수 143

한 줄 요약

에이전트57은 메타-컨트롤러와 분리된 상태-행동 가치 매개변화를 통해 탐험, exploitation, 및 장기 크레딧 할당을 적응적으로 균형 있게 조정하여 57개 Atari 게임 전부에서 인간 벤치마크를 초과하는 최초의 심층 강화학습 에이전트이다.

ABSTRACT

Atari games have been a long-standing benchmark in the reinforcement learning (RL) community for the past decade. This benchmark was proposed to test general competency of RL algorithms. Previous work has achieved good average performance by doing outstandingly well on many games of the set, but very poorly in several of the most challenging games. We propose Agent57, the first deep RL agent that outperforms the standard human benchmark on all 57 Atari games. To achieve this result, we train a neural network which parameterizes a family of policies ranging from very exploratory to purely exploitative. We propose an adaptive mechanism to choose which policy to prioritize throughout the training process. Additionally, we utilize a novel parameterization of the architecture that allows for more consistent and stable learning.

연구 동기 및 목표

모든 게임에서 인간 벤치마크를 이기는 일반적 Atari 57 에이전트를 시연한다.
NGU보다 탐험 및 장기 크레딧 할당을 개선하여 균일한 성능을 달성한다.
다양한 게임에서 학습을 안정시키는 건축적 및 학습 메커니즘을 도입한다.
적응적 정책 선택과 더 긴 역전파를 통해 학습의 안정성과 최종 성능이 향상된다.

제안 방법

Q-values를 외재적(extrinsic) 및 내재적(intrinsic) 구성으로 매개화합니다: Q(x,a,j;θ)=Q(x,a,j;θ^e)+β_j Q(x,a,j;θ^i).
변환된 Retrace 손실과 함께 내재적 및 외재적 가치에 대해 두 개의 분리된 네트워크를 훈련합니다.
에피소드에 걸쳐 정책 선택(β_j, γ_j)을 적응시키는 비정상적(non-stationary) 다팔 팔 밴딧을 사용하는 메타-컨트롤러(에이전트당 하나)를 도입합니다.
중앙 우선 재생 버퍼와 다수의 액터를 사용하는 분산 RL 설정을 사용합니다.
장기 크레딧 할당을 개선하기 위해 더 긴 역전파-를 통한 시간 창(예: 160대 80)을 사용합니다.
CHNS/HNS 지표로 모든 57개 Atari 게임에서 평가하고 baselines(R2D2, NGU, MuZero)와 비교합니다.

실험 결과

연구 질문

RQ1단일 에이전트가 모든 57개의 Atari 게임에서 인간 표준 점수의 100%를 넘을 수 있는가?
RQ2내재적 및 외재적 가치 함수를 분리하는 것이 다양한 게임에서 학습 안정성과 성능을 향상시키는가?
RQ3메타-컨트롤러가 탐험/활용 정책을 적응적으로 선택하여 일반성 및 말단 성능을 향상시킬 수 있는가?
RQ4역전파 시점 윈도를 늘리면 전체 성능 손실 없이 장기 크레딧 할당이 개선되는가?

주요 결과

통계	Agent57	R2D2 (bandit)	NGU	R2D2 (Retrace)	R2D2	MuZero
상한 평균	100.00	96.93	95.07	94.20	94.33	89.92
인간보다 큰 게임 수	57	54	51	52	52	51
평균	4766.25	5461.66	3421.80	3518.36	4622.09	5661.84
중위수	1933.49	2357.92	1359.78	1457.63	1935.86	2381.51
40번째 백분위수	1091.07	1298.80	610.44	817.77	1176.05	1172.90
30번째 백분위수	614.65	648.17	267.10	420.67	529.23	503.05
20번째 백분위수	324.78	303.61	226.43	267.25	215.31	171.39
10번째 백분위수	184.35	116.82	107.78	116.03	115.33	75.74
5번째 백분위수	116.67	93.25	64.10	48.32	50.27	0.03

에이전트57은 57개 게임에서 인간 표준 점수의 상한 100%를 달성한다.
에이전트57은 57개 게임 전체에서 인간 벤치마크를 능가하며, 꼬리 성능은 여러 강력한 벤치마크보다 높다.
분리된 내재적/외재적 가치 네트워크는 내재적 보상 스케일링에 대한 강건성을 개선하고 어려운 탐험 게임에서 성능을 높인다.
메타-컨트롤러를 통한 적응적 탐험은 NGU 및 R2D2 벤치마크 모두에서 CHNS의 상당한 이득을 가져온다.
더 긴 역전파-를 통한 시간 창은 학습 안정성과 최종 성능을 개선하며, 특히 Solaris에서 두드러진다.
도전적인 10게임 하위집합에서 각 제안된 개선은 최종 100% CHNS에 기여하여 모든 구성요소의 필요성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.