[논문 리뷰] Adaptive Test-Time Compute Allocation via Learned Heuristics over Categorical Structure
본 논문은 상태 수준의 선택적 검증 프레임워크를 제시한다. 이 프레임워크는 게이트를 설정하고 점수를 매기며 중간 단계에서 검증자 호출을 적응적으로 할당하여 고정된 검증 예산 하에서 정확도를 향상시키고, MATH에서 솔루션 수준의 기준선보다 성능이 우수하다.
Test-time computation has become a primary driver of progress in large language model (LLM) reasoning, but it is increasingly bottlenecked by expensive verification. In many reasoning systems, a large fraction of verifier calls are spent on redundant or unpromising intermediate hypotheses. We study reasoning under a \emph{verification-cost-limited} setting and ask how verification effort should be allocated across intermediate states. We propose a state-level selective verification framework that combines (i) deterministic feasibility gating over a structured move interface, (ii) pre-verification ranking using a hybrid of learned state-distance and residual scoring, and (iii) adaptive allocation of verifier calls based on local uncertainty. Unlike solution-level best-of-$N$ or uniform intermediate verification, our method distributes verification where it is most informative. On the extsc{MATH} benchmark, our approach achieves higher accuracy than best-of-$N$, majority voting, and beam search while using 44\% fewer verifier calls.
연구 동기 및 목표
- 검증자 호출이 주요 비용인 검증 비용 제한 추론의 필요성을 제기한다.
- 중간 상태에서 가지치기하고 점수를 매기며 검증을 할당하는 3단계 게이티드 경쟁 파이프라인을 개발한다.
- 검증자 라벨이 달린 후보 목록으로부터 경량 잔차 스코어러를 학습하여 검증의 우선순위를 정한다.
- Best-of-N, Majority Voting, Beam Search와 비교하여 MATH에서 정확도-비용 트레이드오프의 개선을 입증한다.
제안 방법
- 검증자 호출 없이 잘못된 수를 걸러내기 위한 구조화된 이동 인터페이스에 대해 결정론적 실행 가능성 게이트를 도입한다.
- 학습된 구조적 거리와 검증자 라벨에서 학습된 잔여 값을 결합한 하이브리드 사전 검증 잔차 점수기를 개발한다.
- 각 상태에서 검증할 수의 수를 결정하기 위해 로컬 불확실성 프록시를 사용한 상태 조건부 검증 할당을 구현한다.
- 검증자 라벨이 달린 후보 목록에서 상태 내 순위 손실을 사용하여 잔차 점수기를 학습하고, 필요 시 궤적 기반의 비용-가야 함 신호를 포함한다.
- 고정된 검증자 호출 예산 하에서 MATH(검증을 위한 GSM8K를 검증용으로 사용)에서 평가하고 Best-of-N, Majority Voting, Beam Search와 비교한다.

실험 결과
연구 질문
- RQ1중간 상태에서의 검증자 호출 할당이 솔루션 수준 전략에 비해 고정된 검증 예산 하에서 정확도를 향상시킬 수 있는가?
- RQ2결정론적 실행 가능성 게이트와 상태 로컬 불확실성 기반 할당이 다단계 기호적 추론 작업에서 더 나은 정확도-효율성 트레이드오프를 낳는가?
- RQ3예산 제약 하에서 상위-k 검증을 위해 가능한 수를 순위화하는 학습된 사전 검증 잔차 스코어러의 효과는 얼마나 큰가?
- RQ4백본 모델의 강도가 제안된 할당 전략과 어떻게 상호 작용하여 정확도-비용 프런티어에 영향을 주는가?
주요 결과
| 방법 | 검증자 호출 ↓ | 정확도 (%) ↑ |
|---|---|---|
| 0-shot CoT | - | 30.6 |
| Best-of-N (N=64) | 64 | 42.4 |
| Majority Vote (N=64) | 64 | 44.6 |
| Beam Search (b=4, N=64) | 64 | 51.8 |
| 당사 방법(gates + hybrid + state-k) | 44.8 | 55.2 |
- 본 방법은 MATH에서 44.8 검증자 호출로 55.2% 정확도를 달성하며, 같은 명목 예산에서 Best-of-N (42.4%), Majority Voting (44.6%), Beam Search (51.8%)보다 성능이 우수하다.
- 게이팅만으로도 검증자 호출이 줄어들고 정확도가 향상되며, D_type 점수를 추가하면 호출 수를 더 줄이면서 정확도가 개선된다.
- 적응형 상태-조건부 검증 할당은 가장 큰 이득을 주며, 44.8의 검증자 호출로 55.2% 정확도를 달성해 지역 불확실성 인식 예산 책정의 가치를 보여준다.
- 예산 전체에 걸쳐 중간 상태 할당은 솔루션 수준 기준선보다 주어진 검증자 호출 예산에서 더 나은 정확도를 consistently 제공하며, 백본 확장은 성능을 더욱 높인다.
- 백본 업그레이드(예: Llama 3.2 3B)는 예산 전반에서 정확도를 향상시키고 할당 메커니즘을 부분적으로 보완하여 더 큰 모델 기준선에 근접하게 만든다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.