[论文解读] Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization
FALCON 通过分层的 grammar-constrained 解码、语义修复算子与自适应 Best-of-N 采样,以及 BOPO 训练,在七个 NP-hard 问题上实现对 LLM 基于组合优化的 100% 可行性。
Large language models (LLMs) have emerged as promising general-purpose solvers for combinatorial optimization (CO), yet they fundamentally lack mechanisms to guarantee solution feasibility which is critical for real-world deployment. In this work, we introduce FALCON, a framework that ensures 100\% feasibility through three key innovations: (i) \emph{grammar-constrained decoding} enforces syntactic validity, (ii) a \emph{feasibility repair layer} corrects semantic constraint violations, and (iii) \emph{adaptive Best-of-$N$ sampling} allocates inference compute efficiently. To train the underlying LLM, we introduce the Best-anchored Objective-guided Preference Optimization (BOPO) in LLM training, which weights preference pairs by their objective gap, providing dense supervision without human labels. Theoretically, we prove convergence for BOPO and provide bounds on repair-induced quality loss. Empirically, across seven NP-hard CO problems, FALCON achieves perfect feasibility while matching or exceeding the solution quality of state-of-the-art neural and LLM-based solvers.
研究动机与目标
- 解决基于大语言模型的组合优化中缺乏硬性可行性保证的问题。
- 提出分层架构(语法约束、修复、自适应采样)以在保持质量的同时确保可行性。
- 引入 BOPO 训练用于密集、目标导向的监督并证明收敛性。
- 提供对修复影响和可行性的理论保证,并在多样化问题类别上进行经验验证。
提出的方法
- 使用基于输入相关上下文无关文法和 PDA 基掩码算法的语法约束解码以强制句法有效性。
- 具有可行性、幂等性和有界局部性的修复层,用于将任意输出转化为可行解。
- 由解的一致性和贝叶斯置信度驱动的自适应 Best-of-N 采样,以高效分配计算资源。
- BOPO:Best-anchored Objective-guided Preference Optimization,以目标差距对偏好对进行加权,并具有收敛保证(O(1/√T))。
- 两阶段训练:对专家解进行监督微调,然后进行 BOPO 精炼以引导 toward 更高质量的可行解。

实验结果
研究问题
- RQ1是否能在多样化问题类别中为基于 LLM 的组合优化保证 100% 的可行性?
- RQ2FALCON 与通用大型语言模型及领域专用求解器在可行性率和解质量方面的对比如何?
- RQ3语法约束、修复层、BOPO 与自适应采样对整体性能的贡献与必要性是什么?
- RQ4FALCON 如何在路由、图和调度问题的规模与实例难度上扩展?
主要发现
- FALCON 在七个 NP-hard 问题上实现 100% 的可行性,即使只有单样本(N=1)。
- 自适应采样在显著减少样本数量(远少于固定的 N=64)的同时提供具有竞争力的最优性差距,显著缩短推理时间。
- 修复层对可行性至关重要(移除后可行性下降),且 BOPO 在各问题上优于 GRPO。
- 修复频率与约束复杂性相关,而开销保持较小,证明了修复的局部性。
- BOPO 提供更优的学习信号和收敛保证,产生比基线方法更好的可行性与差距表现。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。