[論文レビュー] Programming over Thinking: Efficient and Robust Multi-Constraint Planning
SCOPE は、クエリ固有の推論を汎用コード実行から分離して再利用可能なソルバ関数を構築し、ベンチマーク全体で低コスト・低レイテンシの状態推移の多制約計画において最先端の結果を達成します。
Multi-constraint planning involves identifying, evaluating, and refining candidate plans while satisfying multiple, potentially conflicting constraints. Existing large language model (LLM) approaches face fundamental limitations in this domain. Pure reasoning paradigms, which rely on long natural language chains, are prone to inconsistency, error accumulation, and prohibitive cost as constraints compound. Conversely, LLMs combined with coding- or solver-based strategies lack flexibility: they often generate problem-specific code from scratch or depend on fixed solvers, failing to capture generalizable logic across diverse problems. To address these challenges, we introduce the Scalable COde Planning Engine (SCOPE), a framework that disentangles query-specific reasoning from generic code execution. By separating reasoning from execution, SCOPE produces solver functions that are consistent, deterministic, and reusable across queries while requiring only minimal changes to input parameters. SCOPE achieves state-of-the-art performance while lowering cost and latency. For example, with GPT-4o, it reaches 93.1% success on TravelPlanner, a 61.6% gain over the best baseline (CoT) while cutting inference cost by 1.4x and time by ~4.67x. Code is available at https://github.com/DerrickGXD/SCOPE.
研究の動機と目的
- LLMs による堅牢な多制約計画を推進するための推論の一貫性の欠如と高コストに対処する。
- 問題推論と汎用ソルバ実行を分離する二段階フレームワークを提案する。
- 1つの例のクエリから再利用可能なソルバ関数を自動生成する方法を学習する。
- 計画ベンチマークにおいて推論コストを低減しつつ最先端の性能を示す。
提案手法
- 二段階ワークフロー:クエリ固有の問題推論と汎用ソルバ生成。
- 問題の形式化と問題最適化を通じて組み合わせと制約を構造化された表現として生成する。
- ソルバ構築:組み合わせ、フィルタ、デリバ機能を構築する。
- ソルバ改善:1つの例と真実解を用いて関数を反復的に改善する。
- 推論は事前生成されたソルバ関数を用い、新しいクエリをコード再生成なしで解く。
実験結果
リサーチクエスチョン
- RQ1推論を実行から分離することで、マルチコンストレイント計画の堅牢で再利用可能なソルバを生み出せるか。
- RQ2ソルバベースのアプローチは、推論コストを削減しつつ、ベンチマークとモデル全体で成功率を維持または向上させるか。
- RQ3フレームワークは異なる計画ドメインとモデル能力にどれだけ一般化できるか。
- RQ4各コンポーネント(問題形式化、問題最適化、ソルバ改善)が全体性能に与える影響はどれくらいか。
主な発見
- SCOPE は複数のベンチマークとモデルで最先端の結果を達成する。
- 長文推論ベースラインと比較して推論コストと時間を大幅に削減する。
- パフォーマンスの向上は特に弱いモデル(例:GPT-4o、Gemini-1.5-Pro)で顕著である。
- 問題の複雑さが増しても、全列挙と決定論的ソルバロジックによりアプローチは堅牢さを維持する。
- 単一の例のクエリでソルバ生成と改善が可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。