QUICK REVIEW

[논문 리뷰] TravelPlanner: A Benchmark for Real-World Planning with Language Agents

Jian Xie, Kai Zhang|arXiv (Cornell University)|2024. 02. 02.

Multi-Agent Systems and Negotiation인용 수 13

한 줄 요약

TravelPlanner는 언어 에이전트의 도구 사용 및 다중 제약 계획을 테스트하기 위한 1,225개의 주석이 달린 질의와 4백만 항목의 샌드박스를 포함한 실제 세계 여행 계획 벤치마크를 도입합니다; 현재 LLM은 복합 작업에서 최종 합격률이 0.6%에 불가합니다.

ABSTRACT

Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents.

연구 동기 및 목표

LLMs로 구동되는 언어 에이전트가 현실적인 샌드박스에서 복합적이고 다중 제약 여행 계획을 수행할 수 있는지 평가합니다.
도구 사용 및 계획 전략의 효과를 환경, 일반상식 및 까다로운 제약 하에서 평가합니다.
장기 계획 작업에서 현재 언어 에이전트의 일반적인 실패 모드를 식별합니다.
인간 수준의 계획에 가까운 더 강력한 언어 에이전트 개발을 촉진하기 위한 도전적인 테스트베드를 제공합니다.]

제안 방법

6개의 데이터 도구와 약 4백만 개의 여행 데이터 레코드로 정적 샌드박스 환경을 생성합니다.
기간과 까다로운 제약이 다양한 1,225개의 질의를 설계하고 참조 계획을 제공합니다.
모든 질의에 대해 인간이 타당하다고 판단하는 참조 계획을 주석 처리하여 최소 하나의 실행 가능 솔루션을 보장합니다.
배달률, 일반 상식 제약 통과율, 까다로운 제약 통과율, 최종 합격률을 미시적 및 거시적 메트릭으로 평가합니다.
두 단계 모드와 단일 계획 모드에서 여러 LLM(GPT-4-Turbo, Gemini Pro, Mixtral 등)과 계획 전략(Direct, CoT, ReAct, Reflexion)을 비교합니다.
도구 사용 오류, 무한 루프, 환각 등 실패 모드를 분석하여 계획의 간극을 이해합니다.]

실험 결과

연구 질문

RQ1최신 언어 에이전트가 정보 수집 도구를 활용해 다중 제약 여행 계획을 실행 가능한 계획으로 생성할 수 있는가?
RQ2ReAct 및 Reflexion과 같은 계획 전략은 다중 제약이 있는 복잡한 실제 계획 작업에서 어떻게 작동하는가?
RQ3TravelPlanner에서 성능을 저해하는 지배적인 실패 모드(도구 사용 오류, 무한 루프, 환각)는 무엇인가?
RQ4정보 수집+계획의 두 단계 모드와 단독 계획 모드 간 에이전트 성능 차이는 어떤가?
RQ5이 복잡한 작업에서 마이크로 제약 합격률과 매크로 제약 합격률의 차이는 어느 정도인가?

주요 결과

단계별 모드에서 ReAct를 가진 GPT-4-Turbo는 테스트 세트에 대한 최종 합격률이 0.6%이다.
대부분의 다른 LLM은 TravelPlanner에서 어떠한 작업도 완료하지 못한다.
두 단계 계획은 지표 전반에서 단독 계획보다 성능이 낮아 격차가 최대 30%를 넘는 경우가 있다.
에이전트는 까다로운 제약을 충족하고 여러 제약을 총괄적으로 고려하는 데 어려움을 겪어 매크로 합격률이 낮다.
일반적인 실패 모드로 도구 사용의 인자 오류, 무한 루프, 환각이 포함되어 있어 더 정교한 계획 전략과 도구 추론이 필요하다는 것을 시사한다.]

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.