QUICK REVIEW

[논문 리뷰] Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Avinash Reddy, Thayne T. Walker|arXiv (Cornell University)|2026. 02. 08.

Topic Modeling인용 수 0

한 줄 요약

DCCD는 먼저 제약 없이 초안을 생성하고, 그 초안을 조건으로 제약 디코딩을 수행하는 두 단계의 추론 방법을 도입하여, 모델 크기와 제약 유형에 걸쳐 엄격한 구조적 정확도와 매개변수 효율성을 향상시킵니다.

ABSTRACT

Large language models (LLMs) are increasingly used to generate executable outputs, JSON objects, and API calls, where a single syntax error can make the output unusable. Constrained decoding enforces validity token-by-token via masking and renormalization, but it can distort generation when the model assigns low probability mass to valid continuations, pushing decoding toward locally valid yet semantically incorrect trajectories. We propose \emph{Draft-Conditioned Constrained Decoding (DCCD)}, a simple two-step, training-free inference procedure that decouples semantic planning from structural enforcement: an unconstrained draft is generated first, and constrained decoding is then applied, conditioned on this draft, to guarantee validity. We analyze DCCD through a KL-projection view, showing that draft conditioning increases feasible mass and reduces the cumulative "projection tax" induced by hard constraints, with an optional best-of-$K$ draft selection. Across structured reasoning benchmarks, DCCD improves strict structured accuracy by up to +24 percentage points over standard constrained decoding (e.g., 15.2\% to 39.0\% on GSM8K with a 1B model), and enables smaller model pairs to match or exceed much larger constrained baselines, yielding substantial gains in parameter efficiency.

연구 동기 및 목표

표준 제약 디코딩하에서 엄격한 제약이 구조화 생성에 어떻게 왜곡을 일으키는지 이해한다.
제약 enforcement 전 feasibile mass를 증가시키는 두 단계의 초안 조건 접근법을 제안한다.
모델 규모와 제약 유형에 따른 엄격한 구조적 정확도 및 매개변수 효율성의 개선을 정량화한다.
테스트 시 스케일링 및 초안 기반 선택 전략을 평가한다.
재현 가능한 코드와 DCCD가 도움이 되는 시점과 이유에 대한 통찰을 제공한다.

제안 방법

모델 무관한 두 단계 추론: 비제약적 초안 생성과 초안 조건 제약 디코딩.
제약으로 인한 왜곡과 가능한 질량(feasible mass)을 분석하기 위한 KL-프로젝션 관점.
초안 조건 가능한 질량과 두 모델 구성(초안 모델과 프로젝터 모델) 정의.
알고리즘 1: K개의 초안을 생성하고, 각 초안을 조건으로 제약 디코딩을 계산한 뒤 누적 로그 가능한 질량으로 최적의 초안 선택.
견고성을 높이기 위한 선택적 Best-of-K 초안 선택.
JSON 스키마, 문법, 그리고 증명자가 점검한 형식으로 GSM8K, MATH500, GSM-Symbolic, FOLIO에 대한 경험적 평가.

실험 결과

연구 질문

RQ1DCCD가 모델 크기에 따라 프롬프트 기반 방법 및 표준 제약 디코딩에 비해 엄격한 구조적 정확성을 개선하는가?
RQ2두 모델 구성으로 제약 디코딩을 단일 모델 대비 매개변수 효율성을 더 잘 달성하는가?
RQ3테스트 시 샘플링(초안)이 제약 디코딩에 비해 DCCD의 성능과 스케일링에 어떤 영향을 미치는가?
RQ4다양한 제약 유형(JSON 스키마, 표현식 문법, 증명자 확인 형식)과 추론 벤치마크에서 개선이 일관적인가?

주요 결과

데이터 세트	모델 크기	알고리즘	GSM8K	GSM 기호	Math500	FOLIO
GSM8K	1B	CP	7.51	6.00	6.40	0.00
GSM8K	1B	CF	13.80	9.00	11.60	0.00
GSM8K	1B	CD	15.24	0.00	6.00	19.70
GSM8K	1B	DCCD	39.04	9.00	19.80	21.67
GSM8K	1.5B	CP	13.27	11.00	15.00	0.00
GSM8K	1.5B	CF	48.22	23.00	21.60	0.00
GSM8K	1.5B	CD	49.36	12.00	15.00	14.78
GSM8K	1.5B	DCCD	73.92	23.00	38.20	18.23
GSM8K	3B	CP	59.14	19.00	30.00	1.00
GSM8K	3B	CF	71.80	25.00	32.40	0.00
GSM8K	3B	CD	73.24	17.00	33.40	20.69
GSM8K	3B	DCCD	84.53	36.00	46.80	21.67
GSM8K	7B	CP	80.06	31.00	40.40	0.00
GSM8K	7B	CF	82.26	29.00	44.20	0.00
GSM8K	7B	CD	81.58	26.00	43.60	19.70
GSM8K	7B	DCCD	91.28	41.00	52.80	31.53
GSM8K	8B	CP	76.80	17.00	27.00	0.00
GSM8K	8B	CF	70.20	14.00	24.80	0.49
GSM8K	8B	CD	80.89	19.00	28.60	23.15
GSM8K	8B	DCCD	83.02	30.00	35.00	27.09
GSM8K	14B	CP	91.13	44.00	47.00	0.00
GSM8K	14B	CF	90.52	49.00	47.00	0.49
GSM8K	14B	CD	86.43	37.00	47.60	18.72
GSM8K	14B	DCCD	95.15	53.00	58.60	25.62

DCCD는 CP, CF, CD에 비해 모델 규모(1B–14B) 및 제약 유형 전반에서 엄격한 구조적 정확도를 일관되게 향상시킨다.
DCCD는 더 큰 단일 모델 제약 기반 베이스라인보다 더 매개변수 효율적인 모델 구성을 가능하게 하여 매개변수당 정확도가 더 높다.
초안의 테스트 시간 샘플링이 제약 기반 샘플링을 반복하는 것보다 DCCD에 더 큰 이득을 주며, 일정 시점까지 이점이 증가한다.
DCCD는 특히 저용량 모델에서 응답 신뢰도 분포를 높이고 투사 비용을 감소시킨다.
데이터 세트 전반에서 예를 들어 1B 모델의 경우 JSON 제약에서 엄격한 정확도가 15.24%에서 39.0%로 상승; 1.5B 모델은 49.36%에서 73.92%로 상승한다.
DCCD의 이중 모델 접근 방식은 더 작은 모델이 훨씬 큰 제약 기반 베이스라인과 비슷하거나 능가하게 만들어, 매개변수 효율성을 크게 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.