QUICK REVIEW

[논문 리뷰] On the Planning Abilities of Large Language Models : A Critical Investigation

Karthik Valmeekam, Matthew Marquez|arXiv (Cornell University)|2023. 05. 25.

Natural Language Processing Techniques인용 수 52

한 줄 요약

논문은 LLM의 자율 계획 능력과 외부 계획자에 대한 휴리스틱 생성기로의 활용을 체계적으로 평가하여, 자율 계획 성능은 제한적이지만 검증자 및 백프롬프팅이 있는 LLM-Modulo 구성에서 잠재력이 있음을 시사한다.

ABSTRACT

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) the effectiveness of LLMs in generating plans autonomously in commonsense planning tasks and (2) the potential of LLMs in LLM-Modulo settings where they act as a source of heuristic guidance for external planners and verifiers. We conduct a systematic study by generating a suite of instances on domains similar to the ones employed in the International Planning Competition and evaluate LLMs in two distinct modes: autonomous and heuristic. Our findings reveal that LLMs' ability to generate executable plans autonomously is rather limited, with the best model (GPT-4) having an average success rate of ~12% across the domains. However, the results in the LLM-Modulo setting show more promise. In the LLM-Modulo setting, we demonstrate that LLM-generated plans can improve the search process for underlying sound planners and additionally show that external verifiers can help provide feedback on the generated plans and back-prompt the LLM for better plan generation.

연구 동기 및 목표

LLMs가 일반 상식 계획 과제에서 자율적으로 실행 가능한 계획을 생성하는 정도를 평가한다.
LLMs를 외부 계획자와 검증자에 대한 휴리스틱 지침의 원천으로 평가한다.
자율 성능과 LLM-Modulo 구성을 여러 계획 도메인에서 비교한다.
프롬프트 구성, 도메인 은폐, 완화의 LLM 계획에 미치는 영향을 분석한다.
인간 기준선을 제공하고 인간-루프의 이점을 논의한다.

제안 방법

IPC 도메인을 모사한 PDDL을 사용하여 인스턴스를 생성하는 계획 문제 모음을 만든다.
GPT-4, GPT-3.5, 그리고 초기 GPT 계열에서 자율 및 원샷/적은 샷 구성으로 평가한다.
LLM이 생성한 계획의 실행 가능성을 검증하고 측정하기 위해 VAL을 사용한다.
LLM이 생성한 계획을 LPG 로컬-서치 플래너의 시드로 사용하고 탐색 효율을 분석한다.
도메인 이름을 난독화하여 LLM 계획의 취약성을 테스트한다.
VAL 피드백으로 백프롬프팅을 적용하여 계획 품질을 향상한다.

실험 결과

연구 질문

RQ1LLMs가 일반 상식 계획 과제에서 자율적으로 실행 가능한 실행 가능한 계획을 생성할 수 있는가?
RQ2LLMs가 외부 계획자(LLM-Modulo)나 검증자에게 계획 결과를 개선하는 유용한 휴리스틱 지침을 제공하는가?
RQ3프롬프트 구성(자연어 vs. PDDL, 원샷 vs. 제로샷)이 LLM 계획 성능에 어떤 영향을 미치는가?
RQ4도메인 난독화가 LLM 계획 능력에 미치는 영향은?
RQ5자동화된 검증자와 백프롬프팅이 실제로 LLM 생성 계획을 개선할 수 있는가?

주요 결과

LLMs의 자율 계획 성능은 제한적이며, GPT-4는 도메인 전반에 걸쳐 평균 약 12% 실행 가능성을 달성한다.
프롬프트 유형, 모델 버전, 난독화는 성능에 큰 영향을 미치며, 비명확한 도메인에서도 GPT-4조차 어려움을 겪는다.
LLM-Modulo 모드에서 LLM이 생성한 계획은 LPG 또는 외부 검증자와 함께 사용할 때 올바른 계획 탐색을 가속화할 수 있다.
백프롬프팅과 자동 검증기(VAL)를 통해 Blocksworld 및 Logistics 도메인에서 상당한 계획 교정이 나타난다(예: 테스트된 하위집합에서 각각 82% 및 70%의 정답률).
난독화된 도메인 이름은 LLM 계획 성능을 크게 파괴하여 패턴 매칭에 의존하는 경향을 보여준다.
사람은 Blocksworld에서 LLM보다 우수한 성과를 보이며, 도메인이 인간에게는 여전히 단순하지만 현재 LLM에는 도전적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.