QUICK REVIEW

[논문 리뷰] Adaptive Test-Time Compute Allocation via Learned Heuristics over Categorical Structure

Shuhui Qu|arXiv (Cornell University)|2026. 02. 03.

Natural Language Processing Techniques인용 수 0

한 줄 요약

본 논문은 상태 수준의 선택적 검증 프레임워크를 제시한다. 이 프레임워크는 게이트를 설정하고 점수를 매기며 중간 단계에서 검증자 호출을 적응적으로 할당하여 고정된 검증 예산 하에서 정확도를 향상시키고, MATH에서 솔루션 수준의 기준선보다 성능이 우수하다.

ABSTRACT

Test-time computation has become a primary driver of progress in large language model (LLM) reasoning, but it is increasingly bottlenecked by expensive verification. In many reasoning systems, a large fraction of verifier calls are spent on redundant or unpromising intermediate hypotheses. We study reasoning under a \emph{verification-cost-limited} setting and ask how verification effort should be allocated across intermediate states. We propose a state-level selective verification framework that combines (i) deterministic feasibility gating over a structured move interface, (ii) pre-verification ranking using a hybrid of learned state-distance and residual scoring, and (iii) adaptive allocation of verifier calls based on local uncertainty. Unlike solution-level best-of-$N$ or uniform intermediate verification, our method distributes verification where it is most informative. On the extsc{MATH} benchmark, our approach achieves higher accuracy than best-of-$N$, majority voting, and beam search while using 44\% fewer verifier calls.

연구 동기 및 목표

검증자 호출이 주요 비용인 검증 비용 제한 추론의 필요성을 제기한다.
중간 상태에서 가지치기하고 점수를 매기며 검증을 할당하는 3단계 게이티드 경쟁 파이프라인을 개발한다.
검증자 라벨이 달린 후보 목록으로부터 경량 잔차 스코어러를 학습하여 검증의 우선순위를 정한다.
Best-of-N, Majority Voting, Beam Search와 비교하여 MATH에서 정확도-비용 트레이드오프의 개선을 입증한다.

제안 방법

검증자 호출 없이 잘못된 수를 걸러내기 위한 구조화된 이동 인터페이스에 대해 결정론적 실행 가능성 게이트를 도입한다.
학습된 구조적 거리와 검증자 라벨에서 학습된 잔여 값을 결합한 하이브리드 사전 검증 잔차 점수기를 개발한다.
각 상태에서 검증할 수의 수를 결정하기 위해 로컬 불확실성 프록시를 사용한 상태 조건부 검증 할당을 구현한다.
검증자 라벨이 달린 후보 목록에서 상태 내 순위 손실을 사용하여 잔차 점수기를 학습하고, 필요 시 궤적 기반의 비용-가야 함 신호를 포함한다.
고정된 검증자 호출 예산 하에서 MATH(검증을 위한 GSM8K를 검증용으로 사용)에서 평가하고 Best-of-N, Majority Voting, Beam Search와 비교한다.

실험 결과

연구 질문

RQ1중간 상태에서의 검증자 호출 할당이 솔루션 수준 전략에 비해 고정된 검증 예산 하에서 정확도를 향상시킬 수 있는가?
RQ2결정론적 실행 가능성 게이트와 상태 로컬 불확실성 기반 할당이 다단계 기호적 추론 작업에서 더 나은 정확도-효율성 트레이드오프를 낳는가?
RQ3예산 제약 하에서 상위-k 검증을 위해 가능한 수를 순위화하는 학습된 사전 검증 잔차 스코어러의 효과는 얼마나 큰가?
RQ4백본 모델의 강도가 제안된 할당 전략과 어떻게 상호 작용하여 정확도-비용 프런티어에 영향을 주는가?

주요 결과

방법	검증자 호출 ↓	정확도 (%) ↑
0-shot CoT	-	30.6
Best-of-N (N=64)	64	42.4
Majority Vote (N=64)	64	44.6
Beam Search (b=4, N=64)	64	51.8
당사 방법(gates + hybrid + state-k)	44.8	55.2

본 방법은 MATH에서 44.8 검증자 호출로 55.2% 정확도를 달성하며, 같은 명목 예산에서 Best-of-N (42.4%), Majority Voting (44.6%), Beam Search (51.8%)보다 성능이 우수하다.
게이팅만으로도 검증자 호출이 줄어들고 정확도가 향상되며, D_type 점수를 추가하면 호출 수를 더 줄이면서 정확도가 개선된다.
적응형 상태-조건부 검증 할당은 가장 큰 이득을 주며, 44.8의 검증자 호출로 55.2% 정확도를 달성해 지역 불확실성 인식 예산 책정의 가치를 보여준다.
예산 전체에 걸쳐 중간 상태 할당은 솔루션 수준 기준선보다 주어진 검증자 호출 예산에서 더 나은 정확도를 consistently 제공하며, 백본 확장은 성능을 더욱 높인다.
백본 업그레이드(예: Llama 3.2 3B)는 예산 전반에서 정확도를 향상시키고 할당 메커니즘을 부분적으로 보완하여 더 큰 모델 기준선에 근접하게 만든다.

Figure 2: Budget-matched comparison across inference strategies. Accuracy on MATH-500 versus number of generations per problem $N$ (x-axis). We report Majoritiy voting, solution-level Best-of- $N$ (weighted), Beam search ( $b{=}4$ ), and our intermediate-state allocation method.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.