QUICK REVIEW

[논문 리뷰] Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling

Kolby Nottingham, Prithviraj Ammanabrolu|arXiv (Cornell University)|2023. 01. 28.

Language and cultural evolution인용 수 9

한 줄 요약

DECKARD은 소수 샷 LLM을 사용하여 하위 목표 계획을 위한 추상 세계 모델(AWM)을 가설화한 다음, 상호작용을 통해 그것을 정초하고 수정하여 Minecraft 아이템 제작의 샘플 효율성을 한 차수 규모로 개선한다.

ABSTRACT

Reinforcement learning (RL) agents typically learn tabula rasa, without prior knowledge of the world. However, if initialized with knowledge of high-level subgoals and transitions between subgoals, RL agents could utilize this Abstract World Model (AWM) for planning and exploration. We propose using few-shot large language models (LLMs) to hypothesize an AWM, that will be verified through world experience, to improve sample efficiency of RL agents. Our DECKARD agent applies LLM-guided exploration to item crafting in Minecraft in two phases: (1) the Dream phase where the agent uses an LLM to decompose a task into a sequence of subgoals, the hypothesized AWM; and (2) the Wake phase where the agent learns a modular policy for each subgoal and verifies or corrects the hypothesized AWM. Our method of hypothesizing an AWM with LLMs and then verifying the AWM based on agent experience not only increases sample efficiency over contemporary methods by an order of magnitude but is also robust to and corrects errors in the LLM, successfully blending noisy internet-scale information from LLMs with knowledge grounded in environment dynamics.

연구 동기 및 목표

embodied 환경에서 RL 샘플 효율성을 높이기 위한 고수준의 하위 목표 지식 활용 동기 부여.
DECKARD를 제안, LLM으로부터 추상 세계 모델(AWM)을 가설화하고 경험으로 이를 확립.
Minecraft 아이템 제작에서 향상된 탐색 효율성과 LLM 오류에 대한 강건성 시연.
하위 목표를 위한 모듈형 RL 정책 학습을 보여주고 baselines와 비교.

제안 방법

Minecraft 아이템 의존성의 DAG 기반 추상 세계 모델을 생성하도록 LLM(Codex)을 프롬프트한다.
Dream-Wake 훈련 루프: Dream 단계는 AWM에서 현재 목표를 향한 경로를 샘플링하여 탐색을 안내; Wake 단계는 모듈형 하위 목표 정책을 학습하고 환경 상호작용을 통해 AWM을 검증/수정한다.
VPT(비디오 사전 학습 Minecraft 정책) 위에 어댑터를 통해 변환기에 기반한 모듈형 하위 목표 정책을 미세조정한다.
경험으로 검증된 노드를 기록하고 그래프를 업데이트하여 LLM이 지정한 AWM을 확립하고 전장을 예측된 목표 경로로 좁혀 탐사 frontier를 가지치기한다.
Minecraft 제작 작업 및 개방형 탐사를 평가하고 LLM-가이드 DECKARD를 절차적 변형 및 baselines와 비교한다.
A WM을 텍스트 상태 표현(인벤토리) 위에 DAG로 표현하고 간선은 하위 목표 의존성을 나타낸다.

실험 결과

연구 질문

RQ1LLM으로 생성된 추상 세계 모델이 희소 보상 embodied 작업에서 탐색 효율성을 향상시킬 수 있는가?
RQ2탐색 안내에 사용될 때 LLM 출력의 오류에 대해 DECKARD는 얼마나 강건한가?
RQ3환경 상호작용을 통해 LLM이 지정한 AWM을 확립하는 것이 ablated 혹은 비-LLM baselines에 비해 샘플 효율성을 향상시키는가?
RQ4모듈형 하위 목표 정책이 Minecraft에서 임의 아이템 제작을 얼마나 가능하게 하는가?

주요 결과

지표	모든 아이템	도구만
수집 가능 대 제작 가능	57	100
제작대 / 화로	84	96
레시피로 올바른 아이템	66	81
레시피 정확 일치	55	69

LLM 가이드가 baselines에 비해 아이템 제작을 위한 탐색 시간을 약 한 차수 수준으로 감소시킨다.
LLM 가이드가 있는 DECKARD는 LLM 가이드가 없는 DECKARD보다 개방형 탐색에서 약 2배, 일부 아이템 작업에서 약 12배의 샘플 효율성 향상을 보인다.
DECKARD는 LLM 오류에 대해 강건하며, AWM에 인위적 오류를 주입해도 ablation을 상회하는 성능을 지속한다.
frontier 기반 샘플링(검증된 경로+예상 경로)은 AWM이 커져도 탐색을 집중적이고 효율적으로 유지한다.
하위 목표 정책은 경량적(하위 목표당 약 950만 파라미터, 어댑터를 통해)이며 프리트레인된 VPT 정책 위에 구축되어 Minecraft에서 확장 가능한 모듈형 RL을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.