[논문 리뷰] AdaPlanner: Adaptive Planning from Feedback with Language Models
AdaPlanner는 계획자 역할과 개선자로서의 역할을 하는 LLM이 작동하는 명시적 폐쇄루프 계획 프레임워크를 도입하며, 코드 기반 프롬프팅과 기술 발견을 사용한 계획 내외 수정으로 ALFWorld와 MiniWoB++에서 샘플 효율성과 적응력을 향상시킨다.
Large language models (LLMs) have recently demonstrated the potential in acting as autonomous agents for sequential decision-making tasks. However, most existing methods either take actions greedily without planning or rely on static plans that are not adaptable to environmental feedback. Consequently, the sequential decision-making performance of LLM agents degenerates with problem complexity and plan horizons increase. We propose a closed-loop approach, AdaPlanner, which allows the LLM agent to refine its self-generated plan adaptively in response to environmental feedback. In AdaPlanner, the LLM agent adaptively refines its plan from feedback with both in-plan and out-of-plan refinement strategies. To mitigate hallucination, we develop a code-style LLM prompt structure that facilitates plan generation across a variety of tasks, environments, and agent capabilities. Furthermore, we propose a skill discovery mechanism that leverages successful plans as few-shot exemplars, enabling the agent to plan and refine with fewer task demonstrations. Our experiments in the ALFWorld and MiniWoB++ environments demonstrate that AdaPlanner outperforms state-of-the-art baselines by 3.73% and 4.11% while utilizing 2x and 600x fewer samples, respectively.
연구 동기 및 목표
- 텍스트 기반 환경에서 개방 루프 및 고정된 계획의 폐쇄 루프 LLM 에이전트의 한계를 해결한다.
- 계획과 개선이 모두 LLM에 의해 수행되는 명시적 폐쇄 루프 프레임워크를 개발한다.
- 코드 스타일 프롬프팅으로 환각을 완화하고 기술 발견을 통해 샘플 효율성을 향상시킨다.
- in-plan 질의(ask_LLM)와 out-of-plan 계획 수정(refine-then-resume)을 통해 빠른 계획 개선을 가능하게 한다.
- 시범 데모를 축소하면서 ALFWorld와 MiniWoB++에서 최첨단 성능을 입증한다.
제안 방법
- 정형화된 파이썬식 코드 프롬프트를 통해 작업을 하위 목표로 분해하고 정제된 계획에서 중단점 기반으로 재개를 가능하게 한다.
- 명시적 폐쇄 루프 수정: in-plan (ask_LLM) 관찰로부터 유용한 정보를 추출하고 향후 행동을 업데이트하며, 예측 실패 시 전체 계획을 대체하는 out-of-plan.
- 성공적인 계획을 저장하고 이를 few-shot 예시로 활용하여 계획 효율성을 높이는 기술 메모리.
- N개의 중요한 타임스탬프에서 평가하고 차이가 발생할 때만 개선을 트리거하는 환경 상호작용 전략으로 API 호출을 줄인다.
- 코드 인터페이스가 자연어 프롬프트에 비해 LLM의 환각을 크게 감소시키는 것으로 나타났다.
- 개방 루프, 암묵적 폐쇄 루프, 명시적 폐쇄 루프 계획 시스템을 구분하는 형식적 해석으로, AdaPlanner는 명시적 폐쇄 루프에 속한다.
실험 결과
연구 질문
- RQ1환경 피드백을 사용하여 재훈련 없이 실시간으로 계획을 조정할 수 있는 LLM 기반 에이전트는 어떻게 작동하는가?
- RQ2코드 기반 프롬프트 접근 방식이 LLM 에이전트의 환각을 줄이고 계획 신뢰성을 향상시키는가?
- RQ3성공적인 계획에서의 기술 발견이 장기 목표 계획의 효율성과 샘플 효율성을 높일 수 있는가?
- RQ4명시적 계획 개선(in-plan 및 out-of-plan)이 ALFWorld와 MiniWoB++ 전반의 작업 성공과 샘플 효율성에 미치는 영향은 무엇인가?
- RQ5다양한 샘플 조건에서 AdaPlanner는 최신 기준선과 어떻게 비교되는가?
주요 결과
| Method | 선택 | 정제 | 가열 | 냉각 | 검토 | 두 가지 선택 | 모두 (134개 작업) |
|---|---|---|---|---|---|---|---|
| BUTLER | 46.00 | 39.00 | 74.00 | 100.00 | 22.00 | 24.00 | 37.00 |
| ReAct (GPT-3) | 66.67 | 41.94 | 91.03 | 80.95 | 55.56 | 35.29 | 61.94 |
| ReAct (GPT-3.5) | 37.50 | 64.52 | 69.57 | 42.86 | 38.89 | 17.65 | 47.76 |
| Reflexion (GPT-3) | 75.00 | 90.32 | 91.30 | 90.48 | 88.89 | 94.12 | 88.06 |
| Reflexion (GPT-3.5) | 50.00 | 41.94 | 65.22 | 52.38 | 66.67 | 47.06 | 52.99 |
| AdaPlanner (GPT-3) | 100.00 | 96.77 | 95.65 | 100.00 | 100.00 | 47.06 | 91.79 |
| AdaPlanner (GPT-3.5) | 77.78 | 93.55 | 69.57 | 93.65 | 62.96 | 78.43 | 80.60 |
- AdaPlanner는 피드백과 함께 ALFWorld에서 91.79%, MiniWoB++에서 91.11%의 최첨단 성공을 달성한다.
- AdaPlanner는 ALFWorld에서 기반선 대비 2배 적은 샘플, MiniWoB++에서 600배 적은 샘플을 사용한다.
- 코드 기반 프롬프팅은 자연어 프롬프트에 비해 환각을 크게 줄이고 성능을 향상시킨다.
- 기술 발견은 두 환경 모두에서 샘플 효율성과 작업 성공을 실질적으로 향상시킨다.
- 명시적 폐쇄 루프 계획 개선은 실험 전반에서 암묵적 또는 고정된 계획 방식보다 일관되게 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.