[논문 리뷰] interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors
이 논문은 메타 프롬프트로 검증 가능한 상태를 안내하는 테스트 타임 검증 프레임워크인 interwhen을 소개하여, 자기- 또는 외부 검증 가능한 스티어링을 통해 정확도와 효율성을 향상시키되 건전성을 해치지 않는 방법을 가능하게 한다.
Reasoning models produce long traces of intermediate decisions and tool calls, making test-time verification increasingly important for ensuring correctness. Existing approaches either verify only the final answer, which misses early errors, or rely on branch-and-verify strategies that explore multiple trajectories at substantially higher compute cost. We introduce interwhen, a single-trajectory verification framework that steers model behavior by providing feedback on intermediate verifiable properties. Our method addresses two key challenges. First, extracting intermediate solutions from a reasoning trace typically requires prompt engineering or external task decomposition into fixed steps, which can constrain the model's reasoning strategy. Instead, we periodically poll the reasoning trace and fork inference to recover intermediate solutions without imposing any predefined structure. Second, frequent verifier calls can increase latency; we address this by running verifiers asynchronously and interrupting the main trajectory only when an error is detected, leaving generation unaffected otherwise. This design improves both reliability and efficiency, and naturally supports early stopping based on consistency over recent intermediate solutions. Across benchmarks in code generation and arithmetic, logical and spatial reasoning, interwhen improves accuracy by up to 15 percentage points over standard chain-of-thought execution while staying within 1.5x of token compute cost. Moreover, on every dataset, interwhen achieves a Pareto-optimal operating point between accuracy and efficiency compared to existing test-time verification methods. Code is available at https://github.com/microsoft/interwhen.
연구 동기 및 목표
- 고위험 도메인(법률, 금융, 물리적 세계)에서 최종 답변을 넘어 언어모델 출력의 검증을 동기화한다.
- 모델 외부로 문제 해결을 분리하지 않고 테스트 타임에 부분 추론 흔적을 검증하고 스티어링할 일반 프레임워크를 제안한다.
- 메타 프롬 prompting을 도입해 검증 가능한 중간 상태를 추출하고 자체 검증 또는 외부 검증자로 검증 가능하게 한다.
- 부분 추적에 개입하는 것이 여러 데이터세트에서 효율성(얼리 스톱) 또는 정확도(테스트-타임 확장)를 개선할 수 있음을 Demonstrate한다.
제안 방법
- 메타 프롬 prompting을 이용해 쉽게 추출할 수 있도록 중간 추론 상태를 구분하는 검증 가능한 상태로 정의한다.
- 검증자 피드백을 상태 실패 시 inline로 추가하는 단일 추적을 유지하고 구현하는 세 가지 핵심 연산: extract_state, verify, interven e
- 상태가 실패하면 피드백을 추가하는 Sequential Verifier 알고리즘을 제시하여 적응적 교정을 가능하게 한다.
- 사례 연구: 빠른 중단(k-Stable Answer)과 구조화된 프롬 prompts 및 검증자를 활용한 테스트-타임 확장을 위한 외부 검증의 내부 검증; 외부 검증자를 사용하면 건전성이 설계상 보장된다.
- ~상건전성은 외부 검증기를 사용할 때 보장됨을 보인다~
실험 결과
연구 질문
- RQ1LM의 출력 스트림에서 문제를 외부적으로 해체하지 않고 검증 가능한 단계는 어떻게 식별할 수 있는가?
- RQ2검증기가 문제를 나타낼 때 중간 상태를 어떻게 검증하고 LM의 추론을 어떻게 조정할 수 있는가?
- RQ3부분 추적에 개입하는 것이 다양한 태스크와 도메인에서 효율성(얼리 스톱) 및/또는 정확도(테스트-타임 확장)를 향상시킬 수 있는가?
주요 결과
| 데이터셋 | 방법 | 정확도 % | 토큰 % |
|---|---|---|---|
| Maze | EAT | 88.53 | 100.00 |
| Maze | DEER | 88.53 | 99.39 |
| Maze | interwhen (k-Stable) | 88.53 | 67.76 |
| Maze | baseline | 88.53 | 100.00 |
| SpatialMap | EAT | 74.93 | 99.66 |
| SpatialMap | DEER | 75.00 | 93.58 |
| SpatialMap | interwhen (k-Stable) | 74.93 | 95.31 |
| SpatialMap | baseline | 74.93 | 100.00 |
| GameOf24 | EAT | 95.01 | 100.00 |
| GameOf24 | DEER | 95.01 | 96.18 |
| GameOf24 | interwhen (k-Stable) | 95.45 | 68.35 |
| GameOf24 | baseline | 95.01 | 100.00 |
- 자기 검증을 사용하면 interwhen이 추론 모델의 빠른 중단에서 정확도 손실 없이 최첨단 효율성을 달성한다.
- 외부 검증자를 사용할 때 interwhen은 테스트-타임 확장 기준선 대비 최대 10%포인트의 정확도 향상을 달성하면서 100% 건전성을 보장하고 최소 4배 이상 더 효율적이다.
- Maze, SpatialMap, GameOf24에서 k-Stable(Internal Verification)은 정확도를 유지하면서 토큰 사용을 크게 줄인다.
- Maze와 SpatialMap에서 외부 검증기 설정은 건전성을 유지하면서 정확도에서 Tree-of-Thought 변형보다 우수하며, GameOf24에서도 토큰 효율성과 유사한 이익이 관찰된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.