[논문 리뷰] Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager는 GPT-4로 구동되는 개방형, 일생에 걸친 학습 Minecraft 에이전트를 도입하여 실행 가능한 기술 라이브러리를 구축하고, 자동 커리큘럼을 사용하며, 환경 피드백과 자기 검증을 통해 코드를 반복적으로 다듬어 베이스라인보다 우수한 성능을 달성한다.
We introduce Voyager, the first LLM-powered embodied lifelong learning agent in Minecraft that continuously explores the world, acquires diverse skills, and makes novel discoveries without human intervention. Voyager consists of three key components: 1) an automatic curriculum that maximizes exploration, 2) an ever-growing skill library of executable code for storing and retrieving complex behaviors, and 3) a new iterative prompting mechanism that incorporates environment feedback, execution errors, and self-verification for program improvement. Voyager interacts with GPT-4 via blackbox queries, which bypasses the need for model parameter fine-tuning. The skills developed by Voyager are temporally extended, interpretable, and compositional, which compounds the agent's abilities rapidly and alleviates catastrophic forgetting. Empirically, Voyager shows strong in-context lifelong learning capability and exhibits exceptional proficiency in playing Minecraft. It obtains 3.3x more unique items, travels 2.3x longer distances, and unlocks key tech tree milestones up to 15.3x faster than prior SOTA. Voyager is able to utilize the learned skill library in a new Minecraft world to solve novel tasks from scratch, while other techniques struggle to generalize. We open-source our full codebase and prompts at https://voyager.minedojo.org/.
연구 동기 및 목표
- 일생에 걸친, 개방형 구현 에이전트를 보여 주어 인간의 입력 없이도 세계를 지속적으로 탐색하고 새로운 기술을 학습한다.
- 자동 커리큘럼이 지속적인 탐색과 기술 습득을 이끌 수 있는지 보여 준다.
- 실행 가능한 프로그램의 확장 가능하고 해석 가능하며 구성 가능한 기술 라이브러리를 개발한다.
- 환경 피드백과 자기 검증을 이용한 반복적 프롬프팅이 프로그램을 개선하는 메커니즘을 소개한다.
- Voyager를 베이스라인과 비교하고 새로운 세계의 미지의 과제에 대한 일반화를 평가한다.
제안 방법
- 세 부분 아키텍처: 자동 커리큘럼, 확장 가능한 실행 가능한 코드 라이브러리, 구현 컨트롤을 위한 반복적 프롬프팅.
- 코드-액션 패러다임으로 장기적 맥락(task) 요구를 충족하는 구성적이고 시간적으로 확장된 행동 표현.
- 프롬프팅과 컨텍스트 학습을 통한 블랙박스 방식의 GPT-4와의 상호작용(파인튜닝 없음).
- 설명 임베딩으로 색인화된 기술 라이브러리는 관련 재사용 가능한 프로그램의 검색을 지원.
- 환경 피드백, 실행 오류, 자기 검증을 포함하는 반복적 프롬프팅으로 작업 완료까지 코드를 다듬는다.
- 에볼루션 연구와 무작위 테스트를 통해 Voyager를 ReAct, Reflexion, AutoGPT 및 기술 라이브러리 없는 변형과 비교한다.
실험 결과
연구 질문
- RQ1자동 커리큘럼이 인간의 개입 없이도 Minecraft 환경에서 개방형 탐색과 지속적인 기술 성장을 이끌 수 있는가?
- RQ2실행 가능한 기술 라이브러리가 구성적이고 재사용 가능한 행동을 가능하게 하며 새로운 과제에 대한 일반화를 향상시키는가?
- RQ3환경 피드백과 자기 검증이 포함된 반복적 프롬프팅이 프로그램 합성 및 과제 성공에 어떤 영향을 미치는가?
- RQ4GPT-4가 GPT-3.5에 비해 코드 생성 품질과 에이전트 성능에 어떤 영향을 미치는가?
- RQ5 Voyager의 구성 요소가 베이스라인 LLM 기반 에이전트와 비교해 일생의 맥락 학습에 어떤 영향을 미치는가?
주요 결과
- Voyager는 160 프롬프팅 반복에서 베이스라인보다 고유 아이템을 3.3배 더 획득한다.
- Voyager는 이전 SOTA 방법보다 최대 15.3배 빠르게 주요 기술 트리 마일스톤을 달성한다.
- Voyager는 맵 탐색에서 베이스라인보다 2.3배 더 긴 거리로 이동한다.
- 학습된 기술 라이브러리는 신규 Minecraft 세계에서 베이스라인이 어려움을 겪는 새로운 작업에 일반화를 가능하게 한다.
- 아브레이션은 자동 커리큘럼과 자기 검증이 지속적 진전에 결정적임을 보여 주고, 기술 라이브러리는 복잡한 행동 구축을 지원하며, GPT-4는 GPT-3.5에 비해 코딩 성능을 크게 향상시킨다.
- 제로샷 테스트에서 Voyager가 새로운 세계의 미지의 과제를 해결하는 반면 베이스라인은 50 프롬프팅 반복 이내에 실패한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.