[논문 리뷰] Scaling Instructable Agents Across Many Simulated Worlds
SIMA는 다양한 3D 환경에서 자유형 지시를 따르도록 언어 지시를 안내하는 구현형 에이전트를 훈련시키며, 인간 데이터와 언어 우선의 인간 친화적 인터페이스를 사용한다.
Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.
연구 동기 및 목표
- 다양한 3D 환경에서 임의의 언어 지시를 따라갈 수 있는 에이전트를 구축하는 목표를 고무하고 설명한다.
- 환경별 구체적 가정이 최소화된 확장 가능한, 언어 우선의 구현형 AI 접근법을 제안한다.
- 연구 환경과 상용 게임 모두에서 대규모 다중 모달 데이터(이미지, 언어, 행동)를 수집하고 활용한다.
- 사전 학습된 비전-언어 구성요소를 행동 복제에 의한 강화학습과 통합하는 에이전트 아키텍처를 개발한다.
- 다양한 환경에 걸친 평가 방법론을 확립하여 언어 조건화된 바인딩과 일반화를 평가한다.
제안 방법
- 상용 게임과 연구 환경을 포함한 광범위한 3D 환경 포트폴리오를 사용하여 에이전트를 훈련하고 평가한다.
- 입력이 이미지와 자연어 지시인 언어 우선 인터페이스를 채택하고 출력은 키보드-마우스 동작이다.
- 사전 학습된 모델(SPARC, Phenaki)을 처음부터 학습하는 구성 요소와 함께 도입하고, Transformer-XL 기반의 메모리를 두며, 이들 모두가 정책 네트워크를 이끈다.
- 에이전트를 훈련하기 위해 보조 목표 달성 예측 목표를 포함한 행동 복제를 적용한다.
- 실행 중 언어 조건화를 강화하기 위해 분류기 자유 가이던스를 적용한다.
- 다양한 환경에서 고품질 훈련 데이터를 선별하기 위해 다중 모달 데이터 전처리, 필터링, 가중치를 활용한다.
실험 결과
연구 질문
- RQ1단일의 인간 친화적 인터페이스를 사용하여 광범위하고 다양한 3D 환경 집합에서 언어 조건화된 구현형 에이전트가 일반화할 수 있는 방법은 무엇인가?
- RQ2많은 세계에 걸친 비전-행동 정책에서 자유로운 형식의 자연어 지시를 가장 잘 지상화하기 위한 데이터, 아키텍처 및 학습 목표는 무엇인가?
- RQ3메모리 보강된 아키텍처와 결합된 사전 학습된 비전-언어 모델이 복잡하고 실시간 환경에서 지시 이행을 향상시킬 수 있는가?
- RQ4연구 환경과 상용 게임 모두에서 언어 조건화된 행동을 측정하기 위한 평가 전략(OCR, 실제 태스크, 인간 판단)의 효과는 얼마나 되는가?
- RQ5다양한 환경에 걸친 지시 이행 능력을 확장하는 데 있어 데이터 품질, 리믹스 및 가중치가 어떤 역할을 하는가?
주요 결과
- SIMA 접근법은 여러 가지 다양한 3D 환경에서 자유 형식의 지시를 따라갈 수 있는 지시 가능한 에이전트로의 진전을 보여준다.
- 사전 학습된 비전-언어 구성요소와 메모리 보강 트랜스포머를 결합한 하이브리드 아키텍처가 언어와 비전을 키보드-마우스 동작으로 매핑할 수 있다.
- 보조 목표 예측 목표를 포함한 행동 복제와 CFG가 언어 조건화 정책 성능을 향상시킨다.
- 상용 게임에서의 평가는 OCR과 인간 비디오 판단에 의해 과제 완료 및 지시 준수를 평가하는 데 지원된다.
- 데이터 수집에 10개가 넘는 환경을 사용했으며, 그 중 7개 환경은 이 보고서에 형식적 평가 결과를 뒷받침한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.