Skip to main content
QUICK REVIEW

[논문 리뷰] On the Planning Abilities of Large Language Models (A Critical Investigation with a Proposed Benchmark)

Karthik Valmeekam, Sarath Sreedharan|arXiv (Cornell University)|2023. 02. 13.
Natural Language Processing Techniques인용 수 31
한 줄 요약

이 논문은 Blocksworld 유사 작업에서 LLM의 자율 계획, 휴리스틱 안내, 및 인간-루프 성능을 체계적으로 평가하기 위한 벤치마크를 제시하며, 자율 계획은 대부분 비효과적(~3% 성공)인 반면 특정 모드에서 계획자들이 LLM 제안을 수리하거나 활용할 수 있음을 발견한다.

ABSTRACT

Intrigued by the claims of emergent reasoning capabilities in LLMs trained on general web corpora, in this paper, we set out to investigate their planning capabilities. We aim to evaluate (1) how good LLMs are by themselves in generating and validating simple plans in commonsense planning tasks (of the type that humans are generally quite good at) and (2) how good LLMs are in being a source of heuristic guidance for other agents--either AI planners or human planners--in their planning tasks. To investigate these questions in a systematic rather than anecdotal manner, we start by developing a benchmark suite based on the kinds of domains employed in the International Planning Competition. On this benchmark, we evaluate LLMs in three modes: autonomous, heuristic and human-in-the-loop. Our results show that LLM's ability to autonomously generate executable plans is quite meager, averaging only about 3% success rate. The heuristic and human-in-the-loop modes show slightly more promise. In addition to these results, we also make our benchmark and evaluation tools available to support investigations by research community.

연구 동기 및 목표

  • LLMs가 외부 도움 없이 상식적 계획 작업에서 실행 가능한 계획을 생성하고 검증하는 능력을 평가한다.
  • LLMs가 전통적 계획자에게 유용한 휴리스틱 안내를 제공할 수 있는지 평가한다.
  • LLM 생성 계획이나 제안의 사용에서 인간-루프의 이점을 평가한다.
  • 재현 가능한 계획 관련 연구를 위한 자동화된 공개 벤치마크 및 평가 도구를 제공한다.

제안 방법

  • 국제 계획 대회 도메인에서 영감을 받은 벤치마크를 개발하여 계획 생성 및 검증을 테스트한다.
  • 자율, 휴리스틱, 인간-루프의 세 가지 모드로 LLM을 평가한다.
  • PDDL 스타일 도메인 모델링과 템플릿 기반 자연어 번역기를 사용하여 기호적 계획과 텍스트 프롬프트를 연결한다.
  • 자동 계획자(LPG)와 계획 검증기를 통해 실행 가능성과 계획 품질을 측정하는 자동화 평가를 수행한다.
  • Blocksworld에 테스트 사례를 기반으로 분석하고 표준 지표(예: 정확도, 최적성)로 계획자의 성능을 분석한다.
  • 벤치마크와 도구를 연구용으로 공개적으로 제공한다.

실험 결과

연구 질문

  • RQ1LLMs가 외부 도움 없이 상식적 계획 도메인에서 자동으로 실행 가능한 계획을 생성할 수 있는가?
  • RQ2다른 계획자에 대한 휴리스틱 안내 소스로 사용할 때 LLM이 계획 작업을 개선할 수 있는가?
  • RQ3LLM 생성 계획이 인간 계획자들이 계획 작업을 해결하는 데 도움을 주는가 아니면 방해가 되는가?
  • RQ4목표 재구성, 계획 재사용, 재계획이 LLM 보조 계획에 미치는 영향은 무엇인가?

주요 결과

작업정답 사례 수GPT-3Instruct-GPT3BLOOM
계획 생성6/600 (1%)41/600 (6.8%)4/250 (1.6%)
최적 계획2/600 (0.3%)35/600 (5.8%)3/150 (2%)
재계획47/600 (7.8%)40/600 (6.6%)3/100 (3%)
계획 일반화33/500 (6.6%)49/500 (9.8%)11/100 (11%)
계획 재사용0/600 (0%)102/600 (17%)0/100 (0%)
목표 재구성에 대한 견고성 (셔플링)460/600 (76.6%)467/600 (77.8%)21/100 (21%)
목표 재구성에 대한 견고성 (전체→부분)407/600 (67.8%)467/600 (77.8%)9/100 (9%)
목표 재구성에 대한 견고성 (부분→전체)122/600 (20.3%)363/600 (60.5%)5/100 (5%)
  • LLMs는 자율 계획 성공률이 매우 낮아 생성된 계획의 실행 가능성 평균 약 3%에 불과하다.
  • 휴리스틱 모드에서는 LLM이 제안한 계획을 자동 계획자(LPG)로 수리하여 비교적 작은 노력으로 올바른 계획으로 만들 수 있다.
  • 링 인간-루프를 통한 LLM 제안은 시간이나 인지 부담의 통계적으로 유의미한 감소를 보이지는 않지만 약간의 개선을 낳는다.
  • 휴리스틱 및 특정 목표 재구성 작업에서 LLM의 성능은 현저히 더 좋지만 전반적으로 자율 계획 능력은 제한적이다.
  • Blocksworld 작업에서 인간 기준은 인간이 유효하고 종종 최적의 계획을 생성할 수 있음을 보여주며 자율 생성에서 LLM보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.