[논문 리뷰] Parallel Test-Time Scaling with Multi-Sequence Verifiers
MSV (Multi-Sequence Verifier)가 병렬 디코딩 중 모든 후보 해의 상호 작용을 공동으로 모델하여 더 나은 보정, 향상된 best-of-N 선택, 그리고 병렬 테스트 시점 확장을 위한 효율적인 스트리밍 조기 종료 프레임워크를 달성합니다.
Parallel test-time scaling, which generates multiple candidate solutions for a single problem, is a powerful technique for improving large language model performance. However, it is hindered by two key bottlenecks: accurately selecting the correct solution from the candidate pool, and the high inference latency from generating many full solutions. We argue that both challenges are fundamentally linked to verifier calibration. A well-calibrated verifier not only improves answer selection, but also enables early-stopping strategies to reduce latency. However, existing verifiers are limited as they score each candidate in isolation, overlooking rich contextual information across the set of candidates. To address this, we introduce the Multi-Sequence Verifier (MSV), the first verifier designed to jointly process all candidate solutions and model their interactions. MSV achieves improved calibration, which directly enhances best-of-N selection performance. We further introduce a streaming MSV variant that empowers a novel early-stopping framework. Our novel framework fully leverages parallel decoding, which contrasts with the existing multi-sequence early exit works that decode sequences one by one and thus incur significant latency. In this novel setting, MSV can achieve the same target accuracy with around half the latency that would be required with its counterpart that scores each solution in isolation.
연구 동기 및 목표
- 병렬 테스트-타임 스케일링에서 두 가지 병목 현상인 후보 솔루션 선택 정확도와 다수의 전체 솔루션 생성으로 인한 높은 지연을 동기 부여하고 해결합니다.
- 교차 시퀀스 상호 작용을 활용하여 후보를 독립적으로 점수화하는 것보다 보정을 개선하는 검증기를 제안합니다.
- 정확도를 유지하면서 실시간 조기 중지를 지원하는 스트리밍 MSV 변형으로 효율적인 병렬 디코딩을 가능하게 합니다.
- MSV의 개선된 보정이 더 나은 best-of-N 성능과 스트리밍 설정에서 감소된 지연으로 이어진다는 것을 입증합니다.
제안 방법
- Cross-sequence 상호 작용을 포착하기 위해 모든 후보 출력을 공동으로 처리하여 보정된 정확도 점수를 제공하는 Multi-Sequence Verifier (MSV)를 도입합니다.
- 여러 개의 어텐션 마스크를 갖춘 Multi-Mask Transformer Block (MMTB)를 사용하여 시퀀스 간 및 답변 간 정보를 결합합니다.
- 교차 어텐션 중에 시퀀스를 구분하기 위해 각 토큰을 토큰별 은닉 상태 및 시퀀스별 임베딩으로 표현합니다.
- 후보의 정확성을 지상 진실과의 등가를 이진 지표로 정의하고, 토큰 표현과 교차 시퀀스 신호를 모두 사용하여 이 정확성을 예측하도록 MSV를 학습합니다.
- 실험 설정으로 종단 평가와 스트리밍 평가를 제공하며, 실시간 신뢰도 임계값에 따라 조기 중지를 지원하는 스트리밍 MSV 변형을 포함합니다.
- 스트리밍 모드에서 시퀀스를 병렬로 디코딩하고 어느 시퀀스의 신뢰도가 임계값을 초과하면 종료합니다.

실험 결과
연구 질문
- RQ1교차 시퀀스 정보가 병렬 디코딩을 위한 검증기의 보정을 얼마나 개선할 수 있나요?
- RQ2스트리밍 검증기가 정확도를 희생하지 않으면서 병렬 디코딩 설정에서 효과적인 조기 중지를 가능하게 할 수 있나요?
- RQ3여러 후보 해를 공동으로 모델링하는 것이 더 나은 best-of-N 성능과 더 신뢰할 수 있는 신뢰도 추정으로 이어지나요?
- RQ4스트리밍 MSV가 시퀀스별 검증기와 비교하여 지연 시간과 정확도 측면에서 어떻게 다른가요?
주요 결과
- MSV는 강력한 기준선과 비교하여 어려운 수학 추론 벤치마크에서 보정 및 best-of-N 정확도를 향상시킵니다.
- 스트리밍 MSV는 병렬 디코딩 설정에서 베이스라인과 유사한 피크 정확도를 달성하면서도 현저히 낮은 지연 시간을 보입니다.
- MSV는 고립된 시퀀스 검증기와 비교하여 Expected Calibration Error 및 Brier 점수와 같은 보정 오차 지표를 감소시킵니다.
- 이 방법은 선택 품질과 선택된 답변에 대한 신뢰도 점수의 신뢰성 모두에서 실질적인 이점을 보여줍니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.