Skip to main content
QUICK REVIEW

[논문 리뷰] Understanding the planning of LLM agents: A survey

Xu Huang, Weiwen Liu|arXiv (Cornell University)|2024. 02. 05.
Multi-Agent Systems and Negotiation인용 수 29
한 줄 요약

대형 언어 모델(LLMs)가 자율 에이전트의 계획에 어떻게 사용되는지에 대한 체계적 조사이며, 다섯 방향의 분류를 제안하고 인터랙티브 벤치마크에서 대표적 방법들을 평가한다.

ABSTRACT

As Large Language Models (LLMs) have shown significant intelligence, the progress to leverage LLMs as planning modules of autonomous agents has attracted more attention. This survey provides the first systematic view of LLM-based agents planning, covering recent works aiming to improve planning ability. We provide a taxonomy of existing works on LLM-Agent planning, which can be categorized into Task Decomposition, Plan Selection, External Module, Reflection and Memory. Comprehensive analyses are conducted for each direction, and further challenges for the field of research are discussed.

연구 동기 및 목표

  • 포괄적인 분류를 제공하여 LLM 기반 에이전트 계획에 대한 연구에 동기를 부여하고 정리한다.
  • 다섯 가지 계획 방향의 장점과 한계 분석: 작업 분해, 다중 계획 선택, 외부 모듈, 반성 및 기억.
  • 대표적 방법을 요약하고 환각, 실행 가능성, 효율성 등의 도전 과제를 논의한다.
  • 방법과 작업 간의 계획 능력을 비교하기 위한 벤치마크 평가를 제시한다.

제안 방법

  • LLM-에이전트 계획 방법을 분류하기 위한 다섯 방향 분류 체계 제안: 작업 분해, 다중 계획 선택, 외부 계획자 보조 계획, 반성 및 정제, 기억 보강 계획.
  • 각 방향을 형식화된 수식, 대표적 기법, 핵심 통찰로 분석한다.
  • 분해 전략(분해 우선 방식 vs 인터리브드)과 그 무역-오프를 논의한다.
  • LLM+PDDL, LLM+ASP, 및 신경망 플래너를 포함한 외부 기호 및 신경망 플래너를 검토한다.
  • 반성/정제 접근 방식과 기억 증강(RAG 기반 및 구현된 기억)에 대한 예와 함께 고찰한다.
  • 네 벤치마크에서 방법을 평가하여 계획 성능과 자원 사용 간의 관계를 보여준다.

실험 결과

연구 질문

  • RQ1LLM 기반 에이전트에서 계획을 가능하게 하는 주요 방법론적 방향은 무엇인가?
  • RQ2각 계획 방향의 장점과 한계(작업 분해, 다중 계획 선택, 외부 계획자, 반성, 기억) LLM 에이전트에 대해?
  • RQ3외부 플래너와 기억 모듈이 계획의 실행 가능성, 효율성, 장애 허용성에 어떤 영향을 미치는가?
  • RQ4벤치마크 평가에서 계획의 효과성과 비용에 대한 실증적 증거는 무엇인가?
  • RQ5LLM 기반 에이전트 계획의 주요 개방 도전과 향후 방향은?

주요 결과

  • 다섯 방향 분류 체계가 LLM-에이전트 계획 연구를 효과적으로 정리한다: 작업 분해, 다중-계획 선택, 외부 계획자 보조 계획, 반성 및 정제, 기억 보강 계획.
  • 인터리브 분해는 결함 허용성을 높이지만 긴 경로에서 환각 위험이 있다; 분해 우선 방법은 작업-하위 작업 정렬을 강화하지만 적응성이 떨어질 수 있다.
  • 다중 계획 생성 및 선택은 더 넓은 탐색을 제공하지만 계산 비용을 증가시키고 계획 평가에 LLM 의존.
  • 외부 플래너(기호적 예: PDDL; 신경망 플래너)는 제약 조건 및 탐색을 다루어 타당성 및 효율성을 보강; LLM은 주로 작업 형식화 및 추론 제공.
  • 반성 및 기억(RAG 기반 및 구현된 기억)은 결함 허용성 및 적응성을 개선하지만 수렴 및 기억 업데이트의 트레이드-오프는 여전히 도전 과제.
  • ALFWorld, ScienceWorld, HotPotQA, FEVER 벤치마크에서 비용(토큰) 증가에 따른 성능 향상을 보여주고 비용과 계획 품질 간의 트레이드-오프를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.