[論文レビュー] Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization
FALCON は、文法制約付きデコードの層、意味的修復演算子、適応的 Best-of-N サンプリングを組み合わせることで、BOPO トレーニングとともに、LLM ベースの組合せ最適化に対して 100% の実現可能性を保証する。評価対象は 7 つの NP-hard 問題。
Large language models (LLMs) have emerged as promising general-purpose solvers for combinatorial optimization (CO), yet they fundamentally lack mechanisms to guarantee solution feasibility which is critical for real-world deployment. In this work, we introduce FALCON, a framework that ensures 100\% feasibility through three key innovations: (i) \emph{grammar-constrained decoding} enforces syntactic validity, (ii) a \emph{feasibility repair layer} corrects semantic constraint violations, and (iii) \emph{adaptive Best-of-$N$ sampling} allocates inference compute efficiently. To train the underlying LLM, we introduce the Best-anchored Objective-guided Preference Optimization (BOPO) in LLM training, which weights preference pairs by their objective gap, providing dense supervision without human labels. Theoretically, we prove convergence for BOPO and provide bounds on repair-induced quality loss. Empirically, across seven NP-hard CO problems, FALCON achieves perfect feasibility while matching or exceeding the solution quality of state-of-the-art neural and LLM-based solvers.
研究の動機と目的
- LLM ベースの組合せ最適化における硬い実現可能性の保証不足を解消する。
- 品質を保ちながら実現可能性を確保するため、階層的アーキテクチャ(文法制約、修復、適応的サンプリング)を提案する。
- 密な目的指向の監督と収束を証明する BOPO トレーニングを導入する。
- 修復の影響と実現可能性に関する理論的保証と、多様な問題クラスに対する経験的検証を提供する。
提案手法
- 入力依存の文法と PDA ベースのマスキングアルゴリズムを用いた文法制約付きデコードで統語的妥当性を強制。
- 実現可能性修復層には、実現可能性、同一性、局所性の境界を持つ性質を備え、任意の出力を実現可能なものへ変換する。
- 解の一貫性とベイズ信頼度に基づく適応的 Best-of-N サンプリングを用いて、計算資源を効率的に割り当てる。
- BOPO:Best- anchored Objective-guided Preference Optimization は、目的ギャップで重み付けされた好みペアを用い、収束保証(O(1/√T))を持つ。
- 二段階の訓練:専門家解による教師ありファインチューニングの後に BOPO 改良を行い、より高品質な実現可能解へと誘導する。

実験結果
リサーチクエスチョン
- RQ1多様な問題クラスに対して、LLM ベースの組合せ最適化で 100% の実現可能性を保証できるか。
- RQ2実現可能性率と解の品質の点で、FALCON は汎用 LLM やドメイン特化ソルバーと比較してどうか。
- RQ3文法制約、修復層、BOPO、適応サンプリングの貢献と全体性能に対する必然性は何か。
- RQ4ルーティング、グラフ、スケジューリング問題における問題サイズと難易度のスケーリングに FALCON はどのように適用されるか。
主な発見
- FALCON は七つの NP-hard 問題で 100% の実現可能性を達成し、サンプルが単一(N=1)の場合でも達成。
- 適応的サンプリングは、固定 N=64 よりも少ないサンプル数で競争力のある最適性ギャップを実現し、推論時間を大幅に削減。
- 修復層は実現可能性にとって不可欠であり(除去すると実現可能性が低下)、BOPO は問題を横断して GRPO を上回る。
- 修復頻度は制約の複雑さと相関しつつ、オーバーヘッドは小さく、修復の局所性を実証。
- BOPO は優れた学習信号と収束保証を提供し、基準法よりも高い実現可能性とギャップ性能を生み出す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。