QUICK REVIEW

[논문 리뷰] Multi-Game Decision Transformers

Kuang-Huei Lee, Ofir Nachum|arXiv (Cornell University)|2022. 05. 30.

Reinforcement Learning in Robotics인용 수 27

한 줄 요약

오프라인으로 학습된 단일 트랜스포머 기반 모델이 최대 46개의 Atari 게임에서 인간에 근접한 성능을 발휘할 수 있으며, 모델 크기가 커질수록 확장되고 파인튜닝을 통해 새로운 게임에 빠르게 적응합니다. 전문가 행위 추론과 오프라인 훈련이 여러 베이스라인보다 우수합니다.

ABSTRACT

A longstanding goal of the field of AI is a method for learning a highly capable, generalist agent from diverse experience. In the subfields of vision and language, this was largely achieved by scaling up transformer-based models and training them on large, diverse datasets. Motivated by this progress, we investigate whether the same strategy can be used to produce generalist reinforcement learning agents. Specifically, we show that a single transformer-based model - with a single set of weights - trained purely offline can play a suite of up to 46 Atari games simultaneously at close-to-human performance. When trained and evaluated appropriately, we find that the same trends observed in language and vision hold, including scaling of performance with model size and rapid adaptation to new games via fine-tuning. We compare several approaches in this multi-game setting, such as online and offline RL methods and behavioral cloning, and find that our Multi-Game Decision Transformer models offer the best scalability and performance. We release the pre-trained models and code to encourage further research in this direction.

연구 동기 및 목표

단일 가중치 세트를 가진 단일 모델이 오프라인 데이터를 사용하여 다양한 Atari 환경에서 작동할 수 있는지 연구한다.
다중 환경 설정에서 모델 크기가 커질수록 성능이 어떻게 확장되는지 추세를 조사한다.
새로운 게임에 대한 빠른 전이/파인튜닝을 평가하고 온라인/오프라인 베이스라인과 비교한다.
추론 중 고품질 액션 생성을 위한 expert-action inference를 제안하고 평가한다.
일반ist RL 에이전트 연구를 촉진하기 위해 사전 학습된 모델과 코드를 공개한다.

제안 방법

관측값, 보상, 행동, 보상을 포함하는 시퀀스의 다음 토큰을 예측하기 위해 디코더 스타일 트랜스포머를 이용한 오프라인 시퀀스 모델링으로 강화학습을 형식화한다.
행동, 보상, 그리고 수익을 이산 토큰으로 토큰화하고; 관측을 표현하기 위해 이미지 패칭을 사용하고 학습 가능한 위치 인코딩을 추가한다.
전문가 및 비전문가 행동을 포함하는 오프라인 Atari 트래젝트리(41개 게임, 4.1B 스텝, ~160B 토큰)를 대상으로 단일 Multi-Game Decision Transformer를 훈련한다.
추론 시 이진 전문가 분류기를 통한 expert action inference와 높은 수익 타깃의 베이즈 유사 샘플링으로 행동 선택을 안내한다.
여러 베이스라인(BC, C51 DQN, CQL offline TD, CPC, BERT, ACL) 및 차등실험을 비교하여 다중 게임 성능과 전이를 평가한다.
모델 크기(예: DT-10M, DT-40M, DT-200M) 전반에 걸친 확장 효과를 평가하고 새로운 게임에 대한 파인튜닝을 평가한다.

실험 결과

연구 질문

RQ1단일 변환기(공유 가중치)가 오프라인 데이터를 사용하여 다수의 다양한 Atari 게임에서 작동하도록 학습할 수 있는가?
RQ2언어/비전에서 관찰된 확장 법칙이 트랜스포머를 활용한 다중 게임 강화학습에 적용되는가?
RQ3다중 환경 설정에서 오프라인 의사결정 트랜스포머가 온라인 RL 및 다른 오프라인 베이스라인과 어떻게 비교되는가?
RQ4파인튜닝을 통해 새로운 게임으로의 빠른 전이가 가능한가, 그리고 사전 학습이 전이 성능에 어떤 영향을 미치는가?
RQ5전문가 수준의 추론으로 행동 생성을 안내하는 것이 표준 행동 클로닝보다 성능을 향상시키는가?

주요 결과

단일 오프라인 학습 트랜스포머가 41개 학습 게임 전체에 대해 인간 수준의 성능의 평균 126%를 달성한다.
훈련 게임 전반에서 모델 크기가 커질수록 성능이 확장되며, 더 큰 모델이 더 빠르게 학습하고 게임 내 점수도 더 높다.
Multi-Game DT는 일반적으로 비트랜스포머 오프라인 방법과 온라인 다중 게임 베이스라인을 능가하지만, 단일 게임 전문가가 여전히 가장 강하다.
41개 게임에서 DT를 사전 학습하고 보류된 게임에서 파인튜닝하는 것이 최상의 전이를 낳아 CQL 및 CPC/BERT/ACL 같은 표현 학습 베이스라인을 능가한다.
전문가-액션 추론(최적성 조건 부여 샘플링)은 대부분의 게임에서 DT를 표준 행동 클로닝보다 크게 향상시킨다.
전문가 및 비전문가 데이터를 혼합하여 학습하는 것이 DT에 대해 전문가 전용 학습보다 우수하고, 전문가 데이터로 학습된 BC를 능가하는 DT가 전체 데이터를 사용해 학습한다.
DT 기반 방법은 여러 게임에서 제공된 시연 중 최상위 시연보다 상위 롤아웃 성능이 향상되는 것을 보였으며, 주어진 시연을 넘어선 학습을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.