QUICK REVIEW

[논문 리뷰] A Generalist Agent

Scott Reed, Konrad Żołna|arXiv (Cornell University)|2022. 05. 12.

Multimodal Machine Learning Applications인용 수 63

한 줄 요약

Gato는 다양한 모달리티, 작업 및 구현에 걸친 일반주의 정책으로 작동하는 단일 1.2B 파라미터 트랜스포머를 다양한 직렬화 토큰 데이터세트에서 학습하고 프롬프트 조건화를 적용하여 수행합니다.

ABSTRACT

Inspired by progress in large-scale language modeling, we apply a similar approach towards building a single generalist agent beyond the realm of text outputs. The agent, which we refer to as Gato, works as a multi-modal, multi-task, multi-embodiment generalist policy. The same network with the same weights can play Atari, caption images, chat, stack blocks with a real robot arm and much more, deciding based on its context whether to output text, joint torques, button presses, or other tokens. In this report we describe the model and the data, and document the current capabilities of Gato.

연구 동기 및 목표

도메인 전반에서 수작업 정책과 편향을 줄이기 위해 단일 일반주의 에이전트를 구축하도록 동기를 부여한다.
대형 트랜스포머가 통합된 데이터 형식으로 다양한 모달리티와 작업을 처리할 수 있음을 입증한다.
광범위하고 다도메인 데이터세트에서 학습하는 것이 광범위한 능력과 새로운 작업으로의 적응 가능성을 촉진함을 보여준다.
프롬프팅, 확장, 미세조정이 제어, 비전-언어, 로봇 공학 작업에서 성능에 어떤 영향을 미치는지 조사한다.

제안 방법

다중 모달 데이터를 디코더 전용 트랜스포머에 적합한 평면 시퀀스로 직렬화한다.
텍스트는 SentencePiece로 토크나이즈하고, 이미지 패치는 ViT 스타일 패치로, 이산적 행동은 정수로, 연속 값은 mu-law 인코딩으로 1024 구간으로 변환한다.
다음 토큰을 예측하기 위해 24레이어의 1.2B 파라미터 트랜스포머를 사용하며, 마스킹 로스를 대상 출력(텍스트 및 행동)에 적용한다.
학습 및 평가 시 시퀀스 앞에 에피소드나 시연을 추가하여 프롬프트 조건화를 적용한다.
약 1.5 trillion tokens로 달하는 596개의 제어 및 비전-언어 데이터세트로 구성된 다양한 데이터 혼합을 오프라인으로 학습한다.
1024 토큰의 고정 컨텍스트 창으로 배포하고, 장기 지향 제어를 위한 메모리 강화 배치를 사용한다.

실험 결과

연구 질문

RQ1단일 일반주의 모델이 통일된 토큰 기반 시퀀스 모델을 사용하여 광범위한 작업, 모달리티 및 구현에 걸쳐 학습할 수 있는가?
RQ2스케일링(모델 크기, 데이터, 컴퓨트)이 교차 도메인 성능 및 새로운 작업으로의 적응에 어떤 영향을 미치는가?
RQ3프롬프트 조건화와 미세조정이 Few-shot 또는 분포 외 작업 적응에 어떤 영향을 미치는가?
RQ4일반주의 모델이 사전 학습 중 보지 못한 로봇 공학 및 지각 작업으로 얼마나 잘 이전되는가?
RQ5단일 모델이 다수의 도메인에서 도메인별 벤치마크나 전문화된 모델보다 더 잘 수행할 수 있는 정도는 어느 정도인가?

주요 결과

Gato는 시뮬레이션에서 604개 제어 작업 중 450개 이상에서 50% 이상의 전문 점수를 달성한다.
Gato는 23개의 Atari 게임에서 평균적으로 인간 또는 그 이상 성능을 달성하고 11개 게임에서 인간의 두 배 이상을 달성한다.
BabyAI에서 Gato는 거의 모든 레벨에서 전문가의 80% 이상 점수를 기록하며, 가장 어려운 작업 BossLevel은 75%에 도달한다.
Gato는 21/30 DM Control Suite 작업에서 전문가의 50%를 초과하고 18개 작업에서 80% 이상의 성과를 거두며, Meta-World에서는 44/45 작업에서 50% 이상, 3개 작업에서 90% 이상을 기록한다.
실제 로봇 RGB 스택킹에서 Gato의 스킬 일반화는 평균 약 50.2%(실제)이며 BC-IMP 베이스라인과 경쟁력이 있다; 스킬 숙련도 결과는 분포 내 성능이 강하게 나타난다.
제한된 시연으로 Gato를 미세조정하면 로봇 공학 성능이 상당히 향상되며, 더 큰 모델이 더 효과적으로 적응하고 지각 변이 작업(예: 파란색-초록색 스택킹)에서 의미 있는 성공률을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.