[논문 리뷰] Translating Natural Language to Planning Goals with Large-Language Models
본 논문은 GPT-3.5 계열을 자연어를 PDDL 목표로 변환하는 번역기로 평가하며, 명시적이고 잘 규정된 과제에 대해 강력한 번역 성능을 보이지만 부분적으로 규정되었거나 수치/물리적으로 요구되는 과제에 대해서는 신뢰성이 제한적임을 발견하고, 계획자를 위한 목표 번역기로서 LLM의 가능성과 함정 모두를 시사한다.
Recent large language models (LLMs) have demonstrated remarkable performance on a variety of natural language processing (NLP) tasks, leading to intense excitement about their applicability across various domains. Unfortunately, recent work has also shown that LLMs are unable to perform accurate reasoning nor solve planning problems, which may limit their usefulness for robotics-related tasks. In this work, our central question is whether LLMs are able to translate goals specified in natural language to a structured planning language. If so, LLM can act as a natural interface between the planner and human users; the translated goal can be handed to domain-independent AI planners that are very effective at planning. Our empirical results on GPT 3.5 variants show that LLMs are much better suited towards translation rather than planning. We find that LLMs are able to leverage commonsense knowledge and reasoning to furnish missing details from under-specified goals (as is often the case in natural language). However, our experiments also reveal that LLMs can fail to generate goals in tasks that involve numerical or physical (e.g., spatial) reasoning, and that LLMs are sensitive to the prompts used. As such, these models are promising for translation to structured planning languages, but care should be taken in their use.
연구 동기 및 목표
- 대형 언어 모델이 계획 수립을 위한 자연어 지시를 PDDL 목표로 번역할 수 있는지 평가한다.
- 프롬프트(원샷 vs 소샷)가 도메인 구성 전반에 걸쳐 번역 품질과 일반화에 어떤 영향을 미치는지 평가한다.
- 수치, 공간, 또는 술어 의미론 추론과 같은 영역에서의 실패 모드를 식별하고 도메인 이해, 목표 추론, PDDL 목표 명세의 하위작업을 분석한다.
- 번역과 계획 수립을 분리하는(parse-and-solve) 접근 방식으로 로봇 계획을 위한 LLM 기반 목표 번역기의 설계에 대한 가이드를 제공한다.
제안 방법
- Blocksworld의 code-davinci-002를, ALFRED-L의 text-davinci-003를 사용하여 영어 지시를 PDDL 목표로 번역한다.
- 명시적으로 명시된 목표와 부분적으로 규정된 목표를 포함한 다양한 과제 유형으로 두 도메인(Blocksworld, ALFRED-L)을 테스트한다.
- 플래너 호환성 및 술어 정확도에 대한 엄격한 기준과 느슨한 기준으로 번역을 평가한다.
- 도메인 이해, 목표 추론, PDDL 목표 명세로 번역을 분해하여 실패 포인트를 진단한다.
- n-shot 프롬프트 및 문장 순서(예: 아래에서 위로 vs 위에서 아래로)를 달리하여 프롬프트 민감도를 분석한다.
실험 결과
연구 질문
- RQ1다양한 도메인에서 LLM이 자연어 목표를 PDDL-호환 목표로 신뢰성 있게 번역할 수 있는가?
- RQ2도메인 이해, 목표 추론 및 PDDL 생성이 번역 성공 또는 실패에 어떻게 기여하는가?
- RQ3프롬프트 설계(샷 수, 예시, 순서)가 번역 성능 및 일반화에 어떤 영향을 미치는가?
- RQ4수치 및 공간 추론과 관련된 계획 목표로의 번역에서 주된 실패 모드는 무엇인가?
주요 결과
- LLMs는 명시적이고 모호하지 않은 자연어 목표를 PDDL로 고성능으로 번역할 수 있으며, 엄격한 기준(예: ExplicitStacks: 느슨한 99.67%, 엄격 98.67%; ALFRED-L의 ExplicitInstruct: 두 경우 모두 100%)에서 높은 성공률을 보인다.
- 부분적으로 규정된 목표와 모호한 프롬프트의 경우 성능이 저하되며(BlockAmbiguity, KStacksColor 등은 엄격/느슨한 기준에서 낮은 성공률을 보인다).
- 프롬프트에 민감하게 반응하며, 원샷 대 소샷 예시와 순서(bottom-to-top vs top-to-bottom)에 따라 번역 성능 차이가 크게 나타난다(ExplicitStacks-II의 경우 약 50%로, 비모호한 사례에서 더 높음).
- LLMs는 강한 언어능력과 상식으로 격차를 메우는 능력이 있지만 수치 및 물리적(공간) 추론에서 어려움을 겪어 계산 및 중첩 관계와 같은 과제에 영향을 준다(MoveToCount2/3, MoveNested, MoveNested2).
- 도메인 이해와 목표 추론 하위작업은 번역 성공과 상관관계가 있으며, 실패는 도메인 모델의 의미 술어 또는 계층적 관계 및 ALFRED-L의 수치/접지 측면에서 자주 나타난다.
- parse-and-solve(번역-우선) 접근법은 가능성이 있지만, 실제 시스템에서 신뢰성을 확보하려면 모델 편향과 실패 모드를 면밀히 다뤄야 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.