[논문 리뷰] Programming over Thinking: Efficient and Robust Multi-Constraint Planning
SCOPE는 쿼리 특정 추론을 일반 코드 실행으로부터 분리하여 재사용 가능한 해결사 함수(solver functions)를 구축하고, 벤치마크 전체에서 낮은 비용과 대기시간으로 다중 제약 계획에서 최첨단 결과를 얻습니다.
Multi-constraint planning involves identifying, evaluating, and refining candidate plans while satisfying multiple, potentially conflicting constraints. Existing large language model (LLM) approaches face fundamental limitations in this domain. Pure reasoning paradigms, which rely on long natural language chains, are prone to inconsistency, error accumulation, and prohibitive cost as constraints compound. Conversely, LLMs combined with coding- or solver-based strategies lack flexibility: they often generate problem-specific code from scratch or depend on fixed solvers, failing to capture generalizable logic across diverse problems. To address these challenges, we introduce the Scalable COde Planning Engine (SCOPE), a framework that disentangles query-specific reasoning from generic code execution. By separating reasoning from execution, SCOPE produces solver functions that are consistent, deterministic, and reusable across queries while requiring only minimal changes to input parameters. SCOPE achieves state-of-the-art performance while lowering cost and latency. For example, with GPT-4o, it reaches 93.1% success on TravelPlanner, a 61.6% gain over the best baseline (CoT) while cutting inference cost by 1.4x and time by ~4.67x. Code is available at https://github.com/DerrickGXD/SCOPE.
연구 동기 및 목표
- 추론의 일관성 저하와 높은 비용을 해결하여 LLM을 활용한 강건한 다중 제약 계획의 동기를 제시한다.
- 문제 추론을 일반 솔버 실행으로부터 분리하는 두 단계 프레임워크를 제안한다.
- 단일 예시 쿼리로 재사용 가능한 솔버 함수를 자동으로 생성하는 방법을 학습한다.
- 계획 벤치마크에서 낮은 추론 비용으로 최첨단 성능을 입증한다.
제안 방법
- 두 단계 워크플로우: 쿼리 특화 문제 추론 및 일반 솔버 생성.
- 문제 형식화 및 문제 최적화를 통해 구조화된 표현으로 조합 및 제약을 생성한다.
- 솔버 구성으로 조합, 필터 및 전달 함수들을 구축한다.
- 솔버 정제를 통해 단일 예시와 실제 해법을 사용하여 함수들을 점진적으로 개선한다.
- 추론은 미생성 코드 없이 미리 생성된 솔버 함수를 사용하여 새로운 쿼리를 해결한다.
실험 결과
연구 질문
- RQ1추론을 실행으로부터 분리하는 것이 다중 제약 계획을 위한 강건하고 재사용 가능한 솔버를 만들어낼 수 있는가?
- RQ2솔버 기반 접근법이 벤치마크와 모델 전체에서 추론 비용을 줄이면서 성공률을 유지하거나 향상시키는가?
- RQ3프레임워크가 서로 다른 계획 도메인과 모델 능력에 대해 얼마나 잘 일반화되는가?
- RQ4문제 형식화, 문제 최적화, 솔버 정제의 각 구성요소가 전체 성능에 미치는 영향은 무엇인가?
주요 결과
- SCOPE는 다수의 벤치마크와 모델에서 최첨단 결과를 달성한다.
- 긴 텍스트 추론 기법에 비해 추론 비용과 시간을 크게 줄인다.
- 성능 향상은 특히 약한 모델(GPT-4o, Gemini-1.5-Pro 등)에서 두드러진다.
- 열거적 탐색과 결정론적 솔버 로직으로 인해 문제 복잡도가 증가해도 접근 방식은 견고하게 유지된다.
- 단일 예시 쿼리가 솔버 생성 및 정제에 충분하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.