Skip to main content
QUICK REVIEW

[論文レビュー] Tiny Inference-Time Scaling with Latent Verifiers

Davide Bucciarelli, E. Turri|arXiv (Cornell University)|Mar 23, 2026
Generative Adversarial Networks and Image Synthesis被引用数 0
ひとこと要約

論文は VHS を導入する。これは単一ステップ画像生成器の潜在的隠れ状態上で動作する検証器であり、ピクセル空間へデコードせずに推論時のスケーリングをより速く、コスト効率良く実現する。

ABSTRACT

Inference-time scaling has emerged as an effective way to improve generative models at test time by using a verifier to score and select candidate outputs. A common choice is to employ Multimodal Large Language Models (MLLMs) as verifiers, which can improve performance but introduce substantial inference-time cost. Indeed, diffusion pipelines operate in an autoencoder latent space to reduce computation, yet MLLM verifiers still require decoding candidates to pixel space and re-encoding them into the visual embedding space, leading to redundant and costly operations. In this work, we propose Verifier on Hidden States (VHS), a verifier that operates directly on intermediate hidden representations of Diffusion Transformer (DiT) single-step generators. VHS analyzes generator features without decoding to pixel space, thereby reducing the per-candidate verification cost while improving or matching the performance of MLLM-based competitors. We show that, under tiny inference budgets with only a small number of candidates per prompt, VHS enables more efficient inference-time scaling reducing joint generation-and-verification time by 63.3%, compute FLOPs by 51% and VRAM usage by 14.5% with respect to a standard MLLM verifier, achieving a +2.7% improvement on GenEval at the same inference-time budget.

研究の動機と目的

  • 視覚生成モデルの厳しい予算の下での推論時スケーリングを動機づけ、実現する。
  • ピクセル空間でのデコードと CLIP 風の再エンコードを回避して検証オーバーヘッドを削減する。
  • 内部生成器の潜在表現を LLM と整合させ、意味評価を維持または向上させる。
  • 現実的な Best-of-N ジェネレーション設定におけるレイテンシと精度を評価する。
  • 検証器設計とレイテンシのトレードオフに関する経験的研究を提供する。

提案手法

  • VHS を提案。これは DiT ベースの単一ステップ生成器からの隠れ状態 hℓ* を LL M 互換コネクタへの入力として用い、画像デコードと CLIP ベースの再エンコードをスキップする。
  • 合成画像キャプション対と再キャプショニング指導を用いたアライメント段階で DiT の隠れ表現を LL M 埋め込み空間と整合させる視覚埋め込み子を訓練する。
  • 生成サンプルのYes/No ラベリングのクラス不均衡を扱うため重み付きクロスエントロピーで検証器を微調整する。
  • GenEval 上で tiny な予算(Best-of-N)で CLIP ベースおよび AE ベースの MLLM 検証器と VHS を比較評価する。
  • DiT レイヤー選択、損失関数、バックボーン、訓練データの影響をアブレーションで分析する。

実験結果

リサーチクエスチョン

  • RQ1潜在状態の検証器が生成器の隠れ表現上で直接動作して、ピクセル空間検証器の性能と同等以上を、厳しい推論予算下で達成できるか?
  • RQ2検証時のデコード・エンコードをスキップすることでどれだけのレイテンシ、FLOPs、VRAM を節約できるか?
  • RQ3異なる DiT レイヤーと検証損失を用いることが GenEval の制約付き予算下での精度にどのように影響するか?
  • RQ4潜在表現を LLM 入力空間へ整合させるだけで、外部視覚エンコーダなしで効果的な意味評価を得られるか?
  • RQ5 VHS はさまざまな単一ステップ生成器へどの程度一般化するか?

主な発見

BudgetGeneratorStepsVerifierBest-of-NSingleTwoCountingColorPositionAttributionOverall
200msSANA-Sprint1-Best-of-199.388.156.087.654.147.871.6
550msSANA-1.54-Best-of-198.878.266.571.150.620.863.0
550msSANA-Sprint8-Best-of-199.591.959.386.057.852.474.0
MLLM w/ CLIPBest-of-2----78.8
MLLM w/ AEBest-of-3----73.1
VHS (Ours)Best-of-4----80.5
  • VHS は標準的な MLLLM ベースの検証器と比較して、生成と検証を同時に行う時間を 63.3% 削減する。
  • マッチした予算条件下で、VHS は GenEval スコアを CLIP ベース検証器と比較して Best-of-2 で 3.1%、Best-of-4 で 1.7%、Best-of-6 で 0.5% 向上させる。
  • デコード–エンコードパイプラインを迂回し、検証時に不要な DiT レイヤーを切り捨てることで、レイテンシとメモリ使用量を大幅に節約する。
  • 検証器微調整用の加重クロスエントロピー損失はラベル不均衡を緩和し、カテゴリ全体で GenEval の性能を向上させる。
  • 中間レベルの DiT レイヤー(例: h7)が意味論と計算のバランスの最良のトレードオフを提供し、LLM サイズを単純に増やすより VW ベースの整合の方が影響が大きいことを示す。
  • AE ベースの検証器と比較して、VHS は一貫して上回る。特に複数物体推論や空間関係を要するカテゴリで顕著。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。