[논문 리뷰] RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents
RAP는 과거 경험을 저장하고 동적으로 검색하여 텍스트 전용 및 다중 모달 LLM 에이전트의 계획을 안내하며 텍스트 작업에서 최첨단 성능과 embodied 다중 모달 작업에서 강력한 이득을 달성합니다.
Owing to recent advancements, Large Language Models (LLMs) can now be deployed as agents for increasingly complex decision-making applications in areas including robotics, gaming, and API integration. However, reflecting past experiences in current decision-making processes, an innate human behavior, continues to pose significant challenges. Addressing this, we propose Retrieval-Augmented Planning (RAP) framework, designed to dynamically leverage past experiences corresponding to the current situation and context, thereby enhancing agents' planning capabilities. RAP distinguishes itself by being versatile: it excels in both text-only and multimodal environments, making it suitable for a wide range of tasks. Empirical evaluations demonstrate RAP's effectiveness, where it achieves SOTA performance in textual scenarios and notably enhances multimodal LLM agents' performance for embodied tasks. These results highlight RAP's potential in advancing the functionality and applicability of LLM agents in complex, real-world applications.
연구 동기 및 목표
- 텍스트 및 다중 모달 환경 전반에서 LLM 에이전트 계획에 과거 경험을 활용의 필요성을 동기 부여한다.
- 과거 경험을 저장·검색·활용하여 현재 의사결정을 inform하는 Retrieval-Augmented Planning(RAP) 프레임워크를 제안한다.
- RAP의 효과를 텍스트 기반 벤치마크(예: ALFWorld, WebShop)와 구현 로봇 벤치마크(예: Franka Kitchen, Meta-World)에서 입증한다.
- 다수의 LLM 백본 및 시각-언어 모델에 대해 메모리 보강 계획이 성능을 향상시킨다는 것을 보여준다.
제안 방법
- 네 가지 핵심 RAP 구성요소: Memory, Reasoner, Retriever, Executor를 도입한다.
- 작업 정보, 종합 계획, 궤적 등을 포함한 성공적인 작업 실행의 에피소드 로그를 메모리로 저장한다.
- 현재 맥락에 기반하여 Overall 및 Action 계획과 검색 키를 생성하기 위해 Reasoner(LLMs)를 사용한다.
- 작업 유사도, 계획 정렬, 검색 키 유사도의 가중 합으로 검색 점수를 계산하여 관련 메모리를 선택한다.
- 검색된 경험을 프롬프트로 사용한 인-컨텍스트 학습으로 다음 행동을 생성하기 위해 Executor(LLM)를 활용한다.
- 모델 간 메모리 전달 가능성을 입증한다(한 모델로 구성된 메모리가 다른 모델의 평가에 도움을 줄 수 있다).
실험 결과
연구 질문
- RQ1텍스트 및 다중 모달 환경에서 LLM 에이전트의 계획을 개선하기 위해 과거 경험을 어떻게 효과적으로 저장하고 검색할 수 있을까?
- RQ2메모리 보강 플래너가 텍스트 기반 벤치마크와 구현 로봗 벤치마크에서 최첨단 기준선들보다 우수한가?
- RQ3RAP가 서로 다른 언어 모델과 시각-언어 모델에서 견고한가, 그리고 메모리를 모델 간에 전달할 수 있는가?
- RQ4다양한 환경에서 어떤 검색 전략(act vs. obs vs. multimodal)이 최상의 성능을 내는가?
주요 결과
- RAP은 ALFWorld, WebShop, Franka Kitchen, Meta World 벤치마크에서 ReAct 대비 상당한 이득을 달성합니다(예: 각각 33.6%, 13.0%, 18.2%, 12.7% 이득).
- ALFWorld에서 GPT-3.5를 사용한 RAP는 전체 85.8%, RAP train은 작업 전반에 걸쳐 91.0%에 도달하며 ReAct, Reflexion, ADaPT를 능가합니다.
- WebShop에서 GPT-3.5를 사용한 RAP는 전체 점수 76.1%, 성공률 48.0%를 달성하며 ReAct, Reflexion, ADaPT보다 높습니다.
- 다중 모달 벤치마크(Franka Kitchen, Meta-World)에서 RAP-강화 LLaVA 및 CogVLM 에이전트가 평균 성공률에서 주목할 만한 향상을 보입니다(예: LLaVA 43.4%에서 61.6%로, CogVLM 44.2%에서 56.9%로).
- RAP은 메모리를 통해 모델 간 전이 학습을 증명합니다( GPT-3.5로 생성된 메모리가 LLaMA-13B 평가에 도움).
- RAP의 제거 실험은 다중 모달 검색 키(이미지) 및 작업 내/제품 카테고리 검색 구성요소를 사용하는 이점을 나타냅니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.