QUICK REVIEW

[논문 리뷰] Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

Wenlong Huang, Pieter Abbeel|arXiv (Cornell University)|2022. 01. 18.

Multimodal Machine Learning Applications인용 수 159

한 줄 요약

대형 언어 모델은 학습 없이 구현 작업에 대해 그럴듯한 고수준 실행 계획을 생성할 수 있지만, 이러한 계획은 종종 실행 가능하지 않다; 논문은 VirtualHome에서 계획을 번역하고 교정하는 방법을 제안하여 실행 가능성을 개선하고, 의미 정확도와의 일부 트레이드오프를 보이면서 실행 가능성의 상당한 증가를 보여준다.

ABSTRACT

Can world knowledge learned by large language models (LLMs) be used to act in interactive environments? In this paper, we investigate the possibility of grounding high-level tasks, expressed in natural language (e.g. "make breakfast"), to a chosen set of actionable steps (e.g. "open fridge"). While prior work focused on learning from explicit step-by-step examples of how to act, we surprisingly find that if pre-trained LMs are large enough and prompted appropriately, they can effectively decompose high-level tasks into mid-level plans without any further training. However, the plans produced naively by LLMs often cannot map precisely to admissible actions. We propose a procedure that conditions on existing demonstrations and semantically translates the plans to admissible actions. Our evaluation in the recent VirtualHome environment shows that the resulting method substantially improves executability over the LLM baseline. The conducted human evaluation reveals a trade-off between executability and correctness but shows a promising sign towards extracting actionable knowledge from language models. Website at https://huangwl18.github.io/language-planner

연구 동기 및 목표

추가 학습 없이 사전 학습된 LLM이 고수준 작업을 중간 수준 계획으로 분해할 수 있음을 입증한다.
구현 환경에서 LLM이 생성한 계획의 실행 가능성을 평가한다.
자유 형식 계획을 허용 가능한 환경 동작으로 번역하고 추론 시 궤적을 수정하는 방법을 개발·평가한다.
근거 기반 계획에서 실행 가능성과 의미적 정확성 간의 트레이드오프를 정량화한다.
구현 에이전트에서 LLM의 실행 가능한 지식을 구체화하기 위한 지침을 제공한다.

제안 방법

고수준 작업 이름과 시演 예제를 사용해 사전 학습된 LLM에 질의하여 실행 계획을 생성한다.
의미 임베딩(Translation LM)을 사용해 자유 형식 계획 구문을 허용 가능한 환경 동작으로 번역한다.
자회귀적으로 단계들을 생성하고 번역하여 허용 가능성을 유지하고 궤적 보정으로 실행을 수정한다.
시演 세트에서 가장 유사한 작업으로 LLM에 프롬프트를 주기 위해 예시 작업을 동적으로 선택한다.
VirtualHome에서 인간 판단을 통해 실행 가능성과 의미적 정확성을 평가하고 LCS 기반 정확도 및 실행 가능성 지표를 보고한다.

실험 결과

연구 질문

RQ1큰 언어 모델이 추가 학습 없이도 고수준 작업에 대해 의미 있는 중간 수준 실행 계획을 생성할 수 있는가?
RQ2구현 환경에서 이러한 계획의 실행 가능성은 어느 정도이며, 모델을 재학습시키지 않고 실행 가능성을 어떻게 개선할 수 있는가?
RQ3계획을 허용 가능한 환경 동작으로 의미론적으로 번역하는 것이 구현 에이전트의 기초를 개선하는가, 그리고 정확성과의 트레이드오프가 어떤 것이 생기는가?
RQ4동적 시演 선택이 계획 수립에 필요한 지식 추출에 어떤 영향을 미치는가?
RQ5자회귀적 궤적 보정이 계획의 타당성과 기초화에 미치는 영향은 무엇인가?

주요 결과

Model	Executability	LCS	Correctness (mean, with SEM)
Vanilla GPT-2 117M	18.66%	3.19%	15.81% (4.90%)
Vanilla GPT-2 1.5B	39.40%	7.78%	29.25% (5.28%)
Vanilla Codex 2.5B	17.62%	15.57%	63.08% (7.12%)
Vanilla GPT-Neo 2.7B	29.92%	11.52%	65.29% (9.08%)
Vanilla Codex 12B	18.07%	16.97%	64.87% (5.41%)
Vanilla GPT-3 13B	25.87%	13.40%	49.44% (8.14%)
Vanilla GPT-3 175B	7.79%	17.82%	77.86% (6.42%)
Human	100.00%	N/A	70.05% (5.44%)
Fine-tuned GPT-3 13B	66.07%	34.08%	64.92% (5.96%)
Translated Codex 12B	78.57%	24.72%	54.88% (5.90%)
Translated GPT-3 175B	73.05%	24.09%	66.13% (8.38%)

LLMs는 학습 없이도 고수준 작업에 대해 매우 그럴듯한 실행 계획을 생성할 수 있으며, 때로는 인간이 작성한 계획보다 지각된 정확도에서 우월하다.
단순히 생성된 계획은 허용 가능한 동작과의 불일치 및 모호성 때문에 실행 가능하지 않은 경우가 많다.
계획 단계를 Translation LM을 통해 허용 가능한 동작으로 번역하면 실행 가능성이 크게 증가한다(그들의 설정에서 18%에서 79%로 증가).
번역은 환경 구문과의 정렬을 개선하고 인간 계획과의 LCS 기반 유사성을 높이지만, 번역 오류나 환경 지원의 불완전성으로 인해 지각된 정확성이 낮아질 수 있다.
자회귀적 궤적 보정과 동적 예시 선택은 실행 가능성과 기초화를 추가로 강화하지만, 인간 수준의 실행과의 차이가 여전히 남아 있다.
이 접근법은 모델 매개변수 업데이트 없이도 상당한 실행 가능성 이득을 달성하여 기존 파이프라인에 통합할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.