QUICK REVIEW

[논문 리뷰] Inner Monologue: Embodied Reasoning through Planning with Language Models

Wenlong Huang, Fei Xia|arXiv (Cornell University)|2022. 07. 12.

Multimodal Machine Learning Applications인용 수 206

한 줄 요약

논문은 접지된 환경 피드백을 고정된 언어 모델에 입력하면 내부 독백 계획 루프를 가능하게 하여 시뮬레이션과 실제 설정에서의 장기 지향 로봇 작업을 추가 학습 없이 개선한다는 것을 보여준다.

ABSTRACT

Recent works have shown how the reasoning capabilities of Large Language Models (LLMs) can be applied to domains beyond natural language processing, such as planning and interaction for robots. These embodied problems require an agent to understand many semantic aspects of the world: the repertoire of skills available, how these skills influence the world, and how changes to the world map back to the language. LLMs planning in embodied environments need to consider not just what skills to do, but also how and when to do them - answers that change over time in response to the agent's own choices. In this work, we investigate to what extent LLMs used in such embodied contexts can reason over sources of feedback provided through natural language, without any additional training. We propose that by leveraging environment feedback, LLMs are able to form an inner monologue that allows them to more richly process and plan in robotic control scenarios. We investigate a variety of sources of feedback, such as success detection, scene description, and human interaction. We find that closed-loop language feedback significantly improves high-level instruction completion on three domains, including simulated and real table top rearrangement tasks and long-horizon mobile manipulation tasks in a kitchen environment in the real world.

연구 동기 및 목표

자연스러운 언어 피드백이 구현된 환경으로부터의 피드백이 고정된 LLM 계획자에 의해 로봇 공학의 계획과 실행을 개선하는 데 활용될 수 있는지 조사한다.
LLM 기반 계획에서 지각 피드백, 로봇 기술, 그리고 인간 피드백을 교차 배열하는 Inner Monologue 프레임워크를 개발하고 분석한다.
시뮬레이션된 탑테이블 재배열, 실제 세계의 탑테이블 재배열, 그리고 실제 주방 모빌 조작에 걸쳐 접근법을 평가하여 강건성 및 일반화를 평가한다.
Inner Monologue 접근 방식의 등장하는 능력들(새로운 지시사항에 대한 적응, 스스로 제시하는 목표, 다국어 상호작용, 상호작용적 장면 이해 등)을 탐구한다.

제안 방법

Inner Monologue를 제안한다: 계획 및 실행 중에 환경으로부터 파생된 텍스트 피드백(성공 신호, 장면 설명, 인간 입력)을 LLM 플래너에 주입한다.
사전 학습된 언어 조건 로봇 기술을 플래너의 행동 라이브러리로 사용하여 계획으로 조합한다.
피드백을 지각 모듈(객체 인식, 장면 설명, 성공 탐지)로 구체화하고, 일부 설정에서 실제 로봇에 대해 어포던스 기반의 접지를 적용한다.
작업 데이터로 미세 조정되지 않은 고정된 LLM을 사용한 몇 샷 프롬프트 방식을 유지한다.
환경으로부터의 피드백에 응답하여 LLM이 재시도, 재계획 또는 인간 피드백을 요청할 수 있는 닫힌 루프 상호작용을 시연한다.
세 가지 도메인에 걸쳐 평가한다: 시뮬레이션된 탑테이블 재배열, 실제 세계의 탑테이블 재배열, 그리고 실제 주방 모빌 조작.

실험 결과

연구 질문

RQ1사실상 LLM 플래너가 텍스트 환경 피드백을 의미 있게 활용하여 지각과 제어를 닫힌 루프에 맞물리게 할 수 있는가?
RQ2내부 독말 계획이 오픈 루프나 비-LLM 베이스라인과 비교하여 장기적 조작 작업의 성공률을 향상시키는가?
RQ3어떤 유형의 피드백(성공 신호, 수동적 장면 설명, 능동적 장면 설명, 인간 입력)이 계획 및 실행을 가장 잘 지원하는가?
RQ4구현 피드백에 LLM 계획을 접지시키는 것에서 어떤 등장하는 능력들이 생겨나는가(예: 적응, 다국어 상호작용, 상호작용적 장면 이해)?

주요 결과

객체 인식 및 장면 피드백을 포함한 Inner Monologue 변형은 시뮬레이션 및 실제 작업 전반에서 베이스라인보다 더 높은 작업 성공률을 달성한다.
사물 + 장면 피드백과 연쇄 사고 프롬프트는 시뮬레이션에서 보지 못한 작업에 대한 강한 일반화를 보인다.
실제 세계의 탑테이블 작업에서 객체 인식과 함께 성공 피드백을 추가하면 강건성과 실패로부터의 회복력이 크게 개선된다.
실제 주방 조작에서 LLM 정보에 기반한 피드백은 장애 하에서 더 나은 재시도 및 재계획을 가능하게 하며 도전적 시나리오에서 SayCan 베이스라인보다 성능이 우수하다.
등장하는 능력에는 새로운 지시사항에 대한 지속적인 적응, 불가능성 하에 스스로 목표 제안, 다국어 상호작용, 상호작용적 장면 이해가 포함되며 이러한 행태에 대해 명시적으로 프롬프트를 요구하지 않아도 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.