[논문 리뷰] Human-Timescale Adaptation in an Open-Ended Task Space
본 논문은 Adaptive Agent (AdA)를 제시한다. AdA는 오픈 엔드형 3D 작업 공간에서 메타-RL로 학습된 대규모 메모리 보강 RL 에이전트로, 인간 시계대의 적응 및 제로샷/적은 샷 일반화를 달성하고, 1인칭 시연을 포함한다.
Foundation models have shown impressive adaptation and scalability in supervised and self-supervised learning problems, but so far these successes have not fully translated to reinforcement learning (RL). In this work, we demonstrate that training an RL agent at scale leads to a general in-context learning algorithm that can adapt to open-ended novel embodied 3D problems as quickly as humans. In a vast space of held-out environment dynamics, our adaptive agent (AdA) displays on-the-fly hypothesis-driven exploration, efficient exploitation of acquired knowledge, and can successfully be prompted with first-person demonstrations. Adaptation emerges from three ingredients: (1) meta-reinforcement learning across a vast, smooth and diverse task distribution, (2) a policy parameterised as a large-scale attention-based memory architecture, and (3) an effective automated curriculum that prioritises tasks at the frontier of an agent's capabilities. We demonstrate characteristic scaling laws with respect to network size, memory length, and richness of the training task distribution. We believe our results lay the foundation for increasingly general and adaptive RL agents that perform well across ever-larger open-ended domains.
연구 동기 및 목표
- 대규모로 학습된 RL 에이전트가 방대한 오픈 엔드 작업 공간에서 인간 시계대의 맥락 내 적응을 보일 수 있는지 조사한다.
- 메모리 기반 메타-RL을 갖춘 AdA를 개발하여, 보지 않은 작업에서 테스트 시 몇 차례의 시도만으로 적응할 수 있게 한다.
- 빠른 적응을 가능하게 하는 메모리 아키텍처, 자동 커리큘럼, 작업 분포의 풍부함의 역할을 탐구한다.
- 시연을 통한 제로샷 프롬프트를 시연하고 단일 에이전트 및 다중 에이전트 설정에서의 적응을 평가한다.
제안 방법
- 전선이 풍부한 풀에서 샘플링된 XLand 2.0 작업에 대해 메타-RL로 대규모 Transformer 기반 에이전트를 학습한다.
- 에이전트 능력의 프런티어에서 작업을 선택하기 위해 자동 커리큘럼(no-op filtering and PLR)을 사용한다.
- 메모리 아키텍처(Transformer-XL 및 주의집중이 있는 RNN)를 활용하여 여러 시도에 걸친 신속한 적응을 가능하게 한다.
- 교육 규모를 확장하기 위해 교사 모델로부터의 증류(kickstarting) 손실과 함께 Muesli RL 알고리즘으로 최적화한다.
- 보류된 테스트 및 수작업으로 작성된 프로브 작업에서 제로샷 및 소수 샷 적응을 평가하며 다중-에이전트 시나리오를 포함한다.
실험 결과
연구 질문
- RQ1방대한 오픈 엔드 작업 분포에서 학습된 대규모 RL 에이전트가 테스트 시간 경험의 수 분 이내에 보지 않은 작업에 적응할 수 있는가?
- RQ2메모리 아키텍처, 커리큘럼, 작업 분포가 빠른 적응 성능에 미치는 영향은 무엇인가?
- RQ3에이전트가 단일 및 다중 에이전트 설정에서 인간 시계대의 적응을 보이는가?
- RQ41인칭 시연을 통한 제로샷 프롬프트가 추가적으로 적응을 개선할 수 있는가?
- RQ5스케일링 인자(모델 크기, 메모리 길이)가 적응 성능에 어떤 영향을 미치는가?
주요 결과
- AdA는 인간 시계대의 적응을 보여주고, 대부분의 보류된 작업에서 더 많은 테스트 시도로 성능이 향상된다.
- Transformer-XL 메모리의 적응 성능이 가장 뛰어나며, RNN 기반 메모리보다 우수하다.
- 자동 커리큘럼(no-op filtering and PLR)은 균일한 작업 샘플링에 비해 제로샷 일반화와 적은 샷 적응을 향상시킨다.
- 1인칭 시연을 통한 제로샷 프롬프트가 성능을 추가로 향상시킬 수 있다.
- 모델 크기와 메모리 길이를 확장하면 적응 능력이 향상되며, 더 많은 시도가 제공될수록 이득이 커진다.
- 테스트-타임 적응 중 다중 에이전트 작업에서 협력적 행동과 분업이 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.