[논문 리뷰] LLMs Still Can't Plan; Can LRMs? A Preliminary Evaluation of OpenAI's o1 on PlanBench
이 논문은 OpenAI의 o1(OpenAI 대형 추론 모델)을 PlanBench와 일반 LLM들과 대조 평가하여 상당한 계획 능력을 보이나 여전히 불완전함을 보여주며, 효율성/비용 및 보장 측면에서 고전적 플래너에 비해 주목할 만한 우려를 제시한다.
The ability to plan a course of action that achieves a desired state of affairs has long been considered a core competence of intelligent agents and has been an integral part of AI research since its inception. With the advent of large language models (LLMs), there has been considerable interest in the question of whether or not they possess such planning abilities. PlanBench, an extensible benchmark we developed in 2022, soon after the release of GPT3, has remained an important tool for evaluating the planning abilities of LLMs. Despite the slew of new private and open source LLMs since GPT3, progress on this benchmark has been surprisingly slow. OpenAI claims that their recent o1 (Strawberry) model has been specifically constructed and trained to escape the normal limitations of autoregressive LLMs--making it a new kind of model: a Large Reasoning Model (LRM). Using this development as a catalyst, this paper takes a comprehensive look at how well current LLMs and new LRMs do on PlanBench. As we shall see, while o1's performance is a quantum improvement on the benchmark, outpacing the competition, it is still far from saturating it. This improvement also brings to the fore questions about accuracy, efficiency, and guarantees which must be considered before deploying such systems.
연구 동기 및 목표
- 현대의 LLM과 OpenAI o1 Large Reasoning Model이 PlanBench 과제에서 효과적으로 계획을 세울 수 있는지 평가한다.
- Blocksworld 변형 및 은닉화된 도메인에서 대표적인 LLM들과 o1의 성능을 비교한다.
- LRM과 전통적 플래너 간의 효율성, 비용, 그리고 정합성 보장 여부를 검토한다.
제안 방법
- 다중 모델을 사용하여 600 Blocksworld 인스턴스와 600 Mystery Blocksworld 인스턴스의 고정된 세트에서 PlanBench를 실행한다.
- o1의 출력을 정확한 점수 산정을 위한 평가 가능한 계획 표현(PDDL)으로 변환한다.
- 모델별 정확도, 인스턴스당 시간, 프롬프트 비용을 기록한다.
- Fast Downward(고전 플래너)와의 비교 및 대안으로 LLM-Modulo 접근법을 논의한다.
- 해결 불가능한 인스턴스 식별 및 o1의 잠재적 신뢰성 이슈를 분석한다.
실험 결과
연구 질문
- RQ1평균형 LLM이 PlanBench에서 OpenAI o1 Large Reasoning Models와 비교해 어떤 성능을 보이는가?
- RQ2은닉화된 PlanBench 변형(Mystery Blocksworld)에서 LRM이 견고한 계획 성능을 달성하는가?
- RQ3LRM을 계획에 사용할 때의 효율성, 비용, 보장 트레이드오프가 고전적 플래너 및 LLM 기반 접근법과 비교해 어떠한가?
주요 결과
- Blocksworld에서 최고 LLM(LLaMA 3.1 405B)은 62.6% 정확도에 도달하는 반면, o1-preview는 최대 97.8%를 달성한다( Blocksworld, zero-shot ).
- Mystery Blocksworld에서 o1-preview는 52.8% 정확도를 달성하며, 이전 모델들보다 상당히 높지만 여전히 완벽에 미치지 못한다.
- 무작위화된 Mystery Blocksworld에서 o1-preview는 37.3% 정확도에 도달하여 은닉화 어려움을 시사한다.
- 문제 크기가 커짐에 따라 성능이 크게 저하되며, 더 큰 Blocksworld 문제 110개(블록 6–20개, 단계 20–40개)에서 o1-preview의 정확도는 23.63%로 떨어진다.
- LRM은 LLM에 비해 100인스턴스당 비용이 현저히 높으며(예: o1-mini의 42.12달러 대 일부 LLM의 0.65달러), 고전적 플래너가 같은 과제에서 100%의 정합성을 보이고 거의 즉시의 효율성을 달성하는 반면, 정합성 보장을 제공하지 않는다.
- Fast Downward 같은 고전적 플래너는 모든 테스트 인스턴스를 즉시 해결하고 보장을 제공하며(인스턴스당 0.265초), 거의 제로 비용으로 LRMs에 비해 강한 효율성 차이를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.