Skip to main content
QUICK REVIEW

[논문 리뷰] AdaPlanner: Adaptive Planning from Feedback with Language Models

Haotian Sun, Yuchen Zhuang|arXiv (Cornell University)|2023. 05. 26.
Topic Modeling인용 수 13
한 줄 요약

AdaPlanner는 계획자 역할과 개선자로서의 역할을 하는 LLM이 작동하는 명시적 폐쇄루프 계획 프레임워크를 도입하며, 코드 기반 프롬프팅과 기술 발견을 사용한 계획 내외 수정으로 ALFWorld와 MiniWoB++에서 샘플 효율성과 적응력을 향상시킨다.

ABSTRACT

Large language models (LLMs) have recently demonstrated the potential in acting as autonomous agents for sequential decision-making tasks. However, most existing methods either take actions greedily without planning or rely on static plans that are not adaptable to environmental feedback. Consequently, the sequential decision-making performance of LLM agents degenerates with problem complexity and plan horizons increase. We propose a closed-loop approach, AdaPlanner, which allows the LLM agent to refine its self-generated plan adaptively in response to environmental feedback. In AdaPlanner, the LLM agent adaptively refines its plan from feedback with both in-plan and out-of-plan refinement strategies. To mitigate hallucination, we develop a code-style LLM prompt structure that facilitates plan generation across a variety of tasks, environments, and agent capabilities. Furthermore, we propose a skill discovery mechanism that leverages successful plans as few-shot exemplars, enabling the agent to plan and refine with fewer task demonstrations. Our experiments in the ALFWorld and MiniWoB++ environments demonstrate that AdaPlanner outperforms state-of-the-art baselines by 3.73% and 4.11% while utilizing 2x and 600x fewer samples, respectively.

연구 동기 및 목표

  • 텍스트 기반 환경에서 개방 루프 및 고정된 계획의 폐쇄 루프 LLM 에이전트의 한계를 해결한다.
  • 계획과 개선이 모두 LLM에 의해 수행되는 명시적 폐쇄 루프 프레임워크를 개발한다.
  • 코드 스타일 프롬프팅으로 환각을 완화하고 기술 발견을 통해 샘플 효율성을 향상시킨다.
  • in-plan 질의(ask_LLM)와 out-of-plan 계획 수정(refine-then-resume)을 통해 빠른 계획 개선을 가능하게 한다.
  • 시범 데모를 축소하면서 ALFWorld와 MiniWoB++에서 최첨단 성능을 입증한다.

제안 방법

  • 정형화된 파이썬식 코드 프롬프트를 통해 작업을 하위 목표로 분해하고 정제된 계획에서 중단점 기반으로 재개를 가능하게 한다.
  • 명시적 폐쇄 루프 수정: in-plan (ask_LLM) 관찰로부터 유용한 정보를 추출하고 향후 행동을 업데이트하며, 예측 실패 시 전체 계획을 대체하는 out-of-plan.
  • 성공적인 계획을 저장하고 이를 few-shot 예시로 활용하여 계획 효율성을 높이는 기술 메모리.
  • N개의 중요한 타임스탬프에서 평가하고 차이가 발생할 때만 개선을 트리거하는 환경 상호작용 전략으로 API 호출을 줄인다.
  • 코드 인터페이스가 자연어 프롬프트에 비해 LLM의 환각을 크게 감소시키는 것으로 나타났다.
  • 개방 루프, 암묵적 폐쇄 루프, 명시적 폐쇄 루프 계획 시스템을 구분하는 형식적 해석으로, AdaPlanner는 명시적 폐쇄 루프에 속한다.

실험 결과

연구 질문

  • RQ1환경 피드백을 사용하여 재훈련 없이 실시간으로 계획을 조정할 수 있는 LLM 기반 에이전트는 어떻게 작동하는가?
  • RQ2코드 기반 프롬프트 접근 방식이 LLM 에이전트의 환각을 줄이고 계획 신뢰성을 향상시키는가?
  • RQ3성공적인 계획에서의 기술 발견이 장기 목표 계획의 효율성과 샘플 효율성을 높일 수 있는가?
  • RQ4명시적 계획 개선(in-plan 및 out-of-plan)이 ALFWorld와 MiniWoB++ 전반의 작업 성공과 샘플 효율성에 미치는 영향은 무엇인가?
  • RQ5다양한 샘플 조건에서 AdaPlanner는 최신 기준선과 어떻게 비교되는가?

주요 결과

Method선택정제가열냉각검토두 가지 선택모두 (134개 작업)
BUTLER46.0039.0074.00100.0022.0024.0037.00
ReAct (GPT-3)66.6741.9491.0380.9555.5635.2961.94
ReAct (GPT-3.5)37.5064.5269.5742.8638.8917.6547.76
Reflexion (GPT-3)75.0090.3291.3090.4888.8994.1288.06
Reflexion (GPT-3.5)50.0041.9465.2252.3866.6747.0652.99
AdaPlanner (GPT-3)100.0096.7795.65100.00100.0047.0691.79
AdaPlanner (GPT-3.5)77.7893.5569.5793.6562.9678.4380.60
  • AdaPlanner는 피드백과 함께 ALFWorld에서 91.79%, MiniWoB++에서 91.11%의 최첨단 성공을 달성한다.
  • AdaPlanner는 ALFWorld에서 기반선 대비 2배 적은 샘플, MiniWoB++에서 600배 적은 샘플을 사용한다.
  • 코드 기반 프롬프팅은 자연어 프롬프트에 비해 환각을 크게 줄이고 성능을 향상시킨다.
  • 기술 발견은 두 환경 모두에서 샘플 효율성과 작업 성공을 실질적으로 향상시킨다.
  • 명시적 폐쇄 루프 계획 개선은 실험 전반에서 암묵적 또는 고정된 계획 방식보다 일관되게 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.