[論文レビュー] Parallel Test-Time Scaling with Multi-Sequence Verifiers
MSV (Multi-Sequence Verifier) は、並列デコード中にすべての候補解の相互作用を共同でモデル化し、より良いキャリブレーション、最善-Nの選択の改善、および並列テスト時スケーリングのための効率的なストリーミング早期停止フレームワークを実現します。
Parallel test-time scaling, which generates multiple candidate solutions for a single problem, is a powerful technique for improving large language model performance. However, it is hindered by two key bottlenecks: accurately selecting the correct solution from the candidate pool, and the high inference latency from generating many full solutions. We argue that both challenges are fundamentally linked to verifier calibration. A well-calibrated verifier not only improves answer selection, but also enables early-stopping strategies to reduce latency. However, existing verifiers are limited as they score each candidate in isolation, overlooking rich contextual information across the set of candidates. To address this, we introduce the Multi-Sequence Verifier (MSV), the first verifier designed to jointly process all candidate solutions and model their interactions. MSV achieves improved calibration, which directly enhances best-of-N selection performance. We further introduce a streaming MSV variant that empowers a novel early-stopping framework. Our novel framework fully leverages parallel decoding, which contrasts with the existing multi-sequence early exit works that decode sequences one by one and thus incur significant latency. In this novel setting, MSV can achieve the same target accuracy with around half the latency that would be required with its counterpart that scores each solution in isolation.
研究の動機と目的
- 並列テスト時スケーリングにおける2つのボトルネック:候補解の選択精度と多数の完全解を生成することによる高遅延を動機づけ、対処する。
- シーケンス間の相互作用を活用して、孤立して候補をスコアリングするだけではなくキャリブレーションを改善する検証器を提案する。
- リアルタイムの自信閾値に基づく早期停止をサポートしつつ、ストリーミングMSVバリアントで効率的な並列デコードを実現する。
- MSVによる改善されたキャリブレーションが、ストリーミング設定での最善-N性能の向上とレイテンシの削減に寄与することを示す。
提案手法
- すべての候補出力を共同で処理してクロスシーケンス相互作用を捉え、キャリブレーションされた正しさスコアを得る Multi-Sequence Verifier (MSV) を導入する。
- 複数のアテンションマスクを用いる Multi-Mask Transformer Block (MMTB) で、シーケンス間および回答内の情報を組み合わせる。
- クロスアテンション時にシーケンスを区別するため、各トークンをトークン別隠れ状態とシーケンス別埋め込みで表現する。
- 候補の正しさを ground-truth への同値性のバイナリ指標として定義し、トークン表現とシーケンス間信号の両方を用いてこの正しさを予測するようMSVを訓練する。
- 端末評価とストリーミング評価の設定を提供し、リアルタイムの信頼度閾値に基づく早期停止をサポートするストリーミングMSVバリアントを含む。
- ストリーミングモードでは、シーケンスを並列でデコードし、いずれかのシーケンスの信頼度が閾値を超えたときに終了する。

実験結果
リサーチクエスチョン
- RQ1クロスシーケンス情報は、並列デコードの検証器のキャリブレーションをどのように改善できるか?
- RQ2ストリーミング検証器は、精度を犠牲にせず並列デコード設定で効果的な早期停止を可能にできるか?
- RQ3複数の候補解を共同でモデル化することは、最善-Nの性能と信頼性の高い信頼度推定に寄与するか?
- RQ4ストリーミングMSVは、シーケンスごとに検証する検証器と比較して遅延と精度はどうか?
主な発見
- MSVは、難解な数学的推論ベンチマークにおいて、強力なベースラインと比較してキャリブレーションと最善-N精度を向上させる。
- ストリーミングMSVは、並列デコード設定でのピーク精度をベースラインに近づけつつ、遅延を大幅に低減する。
- MSVは、孤立したシーケンス検証器と比較して、期待キャリブレーション誤差(Expected Calibration Error)やブライヤーコストなどのキャリブレーション誤差指標を低減する。
- このアプローチは、選択品質と選択回答の信頼性スコアの両方で実質的な向上を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。