QUICK REVIEW

[논문 리뷰] Hard Constraints Meet Soft Generation: Guaranteed Feasibility for LLM-based Combinatorial Optimization

Yang Liu, Chuan Zhou|arXiv (Cornell University)|2026. 02. 01.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

FALCON은 문법 제약 디코딩, 의미적 수리 연산자, 적응형 Best-of-N 샘플링을 계층화하고 BOPO 훈련과 함께 LLM 기반 조합 최적화에서 100% 가능성을 보장하며, 일곱 개의 NP-hard 문제에 걸쳐 평가되었습니다.

ABSTRACT

Large language models (LLMs) have emerged as promising general-purpose solvers for combinatorial optimization (CO), yet they fundamentally lack mechanisms to guarantee solution feasibility which is critical for real-world deployment. In this work, we introduce FALCON, a framework that ensures 100\% feasibility through three key innovations: (i) \emph{grammar-constrained decoding} enforces syntactic validity, (ii) a \emph{feasibility repair layer} corrects semantic constraint violations, and (iii) \emph{adaptive Best-of-$N$ sampling} allocates inference compute efficiently. To train the underlying LLM, we introduce the Best-anchored Objective-guided Preference Optimization (BOPO) in LLM training, which weights preference pairs by their objective gap, providing dense supervision without human labels. Theoretically, we prove convergence for BOPO and provide bounds on repair-induced quality loss. Empirically, across seven NP-hard CO problems, FALCON achieves perfect feasibility while matching or exceeding the solution quality of state-of-the-art neural and LLM-based solvers.

연구 동기 및 목표

LLM 기반 조합 최적화에서 확실한 가능성 보장의 부족 문제를 해결한다.
품질을 유지하면서 가능성을 보장하기 위해 계층화된 아키텍처(문법 제약, 수리, 적응 샘플링)를 제안한다.
목표 지향적 감독 신호가 가득한 BOPO 학습을 도입하고 수렴을 입증한다.
수리의 영향과 가능성에 대한 이론적 보장을 제공하고, 다양한 문제 클래스에 걸친 실증적 검증을 수행한다.

제안 방법

입력 의존 컨텍스트-자유 문법과 PDA 기반 마스킹 알고리즘을 사용한 문법 제약 디코딩으로 구문 유효성을 강제한다.
실현 가능성 수리 계층은 실현 가능성, 멱등성, 그리고 제한된 국소성의 특성을 가지며 임의의 출력을 실현 가능한 것으로 변환한다.
해결 일관성과 베이지안 신뢰도에 의해 주도되는 적응형 Best-of-N 샘플링으로 계산 자원을 효율적으로 할당한다.
BOPO: Best-anchored Objective-guided Preference Optimization으로 목표 차이로 가중치를 두고 선호 쌍을 가중하며 수렴 보장을 갖는다 (O(1/√T)).
전문가 해법에 대한 감독 미세조정 후 BOPO 정교화를 통해 더 높은 품질의 실현 가능한 해법으로 향하도록 하는 두 단계 학습.

Figure 1: Repair layer statistics across seven CO problems. (a) Feasibility rates. (b) Optimality gap. (c) Repair frequency and cost for each problem. (d) Strong correlation ( $r=0.912$ ) between repair frequency and cost.

실험 결과

연구 질문

RQ1다양한 문제 클래스에 걸쳐 LLM 기반 조합 최적화에서 100% 가능성을 보장할 수 있는가?
RQ2일반 목적 LLM과 도메인 특화 솔버에 비해 가능성 비율과 해법 품질에서 FALCON은 얼마나 우수한가?
RQ3문법 제약, 수리 계층, BOPO, 적응 샘플링의 기여도와 전체 성능에 대한 필요성은 무엇인가?
RQ4라우팅, 그래프, 스케줄링 문제를 포함한 문제 규모와 인스턴스 난이도에 따라 FALCON은 어떻게 규모화되는가?

주요 결과

FALCON은 일곱 개의 NP-hard 문제에서 단 하나의 샘플(N=1)이어도 100% 가능성을 달성한다.
적응 샘플링은 고정 N=64보다 훨씬 적은 샘플로도 경쟁력 있는 최적성 간격을 제공하여 추론 시간을 크게 줄인다.
수리 계층은 가능성에 필수적이며(제거 시 가능성이 낮아짐), BOPO가 문제 전반에서 GRPO를 능가한다.
수리 빈도는 제약의 복잡성과 상관관계가 있으며 오버헤드는 작게 유지되어 수리의 국소성을 입증한다.
BOPO는 우수한 학습 신호와 수렴 보장을 제공하여 기저 방법보다 더 나은 가능성과 간극 성능을 달성한다.

Figure 2: Comparison of BOPO and GRPO starting from the same SFT checkpoint and with an identical training budget. (a) BOPO consistently achieves lower optimality gaps across all problems. (b,c) BOPO improves both optimality gap and feasibility rates. (d) Relative gap improvement.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.