[论文解读] Tiny Inference-Time Scaling with Latent Verifiers
论文提出 VHS,一种在单步图像生成器的潜在隐藏状态上运行的验证器,以实现无需解码到像素空间即可更快且成本更低的推理时尺度扩展。
Inference-time scaling has emerged as an effective way to improve generative models at test time by using a verifier to score and select candidate outputs. A common choice is to employ Multimodal Large Language Models (MLLMs) as verifiers, which can improve performance but introduce substantial inference-time cost. Indeed, diffusion pipelines operate in an autoencoder latent space to reduce computation, yet MLLM verifiers still require decoding candidates to pixel space and re-encoding them into the visual embedding space, leading to redundant and costly operations. In this work, we propose Verifier on Hidden States (VHS), a verifier that operates directly on intermediate hidden representations of Diffusion Transformer (DiT) single-step generators. VHS analyzes generator features without decoding to pixel space, thereby reducing the per-candidate verification cost while improving or matching the performance of MLLM-based competitors. We show that, under tiny inference budgets with only a small number of candidates per prompt, VHS enables more efficient inference-time scaling reducing joint generation-and-verification time by 63.3%, compute FLOPs by 51% and VRAM usage by 14.5% with respect to a standard MLLM verifier, achieving a +2.7% improvement on GenEval at the same inference-time budget.
研究动机与目标
- 在预算紧张的情况下,激励并实现视觉生成模型的推理时扩展。
- 通过避免像素空间解码和 CLIP 风格的再编码来降低验证开销。
- 将内部生成器潜在向量与大语言模型(LLM)对接以保持或提升语义评分。
- 在现实场景的 Best-of-N 生成设定下评估延迟和准确性。
- 提供验证器设计及延迟权衡的经验研究。
提出的方法
- 提出 VHS,一种验证器,它使用基于 DiT 的单步生成器的隐藏状态 hℓ* 作为输入,连接到一个与 LLM 兼容的连接器,跳过图像解码和 CLIP 基于再编码。
- 通过合成图像-字幕对和再字幕化监督,训练一个视觉嵌入器,使 DiT 的隐藏表示与 LLM 的嵌入空间对齐(对齐阶段)。
- 通过加权交叉熵对验证器进行微调,以应对生成样本的 Yes/No 标签的不平衡。
- 在 GenEval 的 tiny 预算下,比较 VHS 与基于 MLLM 的验证器(基于 CLIP 的和基于 AE 的)在 SANA-Sprint 生成器上的表现(Best-of-N)。
- 通过消融研究分析 DiT 层选择、损失函数、骨干网络和训练数据的影响。
实验结果
研究问题
- RQ1在紧凑推理预算下,直接在生成器隐藏表示上操作的潜在状态验证器是否能够达到或超过像素空间验证器的性能?
- RQ2在验证阶段跳过解码-编码步骤可以节省多少延迟、FLOPs 和显存?
- RQ3在预算受限的情况下,不同 DiT 层和验证损失对 GenEval 准确性有何影响?
- RQ4将潜在表示对齐到 LLM 输入空间是否足以在无需外部视觉编码器的情况下实现有效的语义评分?
- RQ5VHS 在不同的单步生成器之间的泛化能力如何?
主要发现
| Budget | Generator | Steps | Verifier | Best-of-N | Single | Two | Counting | Color | Position | Attribution | Overall |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 200ms | SANA-Sprint | 1 | - | Best-of-1 | 99.3 | 88.1 | 56.0 | 87.6 | 54.1 | 47.8 | 71.6 |
| 550ms | SANA-1.5 | 4 | - | Best-of-1 | 98.8 | 78.2 | 66.5 | 71.1 | 50.6 | 20.8 | 63.0 |
| 550ms | SANA-Sprint | 8 | - | Best-of-1 | 99.5 | 91.9 | 59.3 | 86.0 | 57.8 | 52.4 | 74.0 |
| MLLM w/ CLIP | Best-of-2 | - | - | - | - | - | - | - | - | - | 78.8 |
| MLLM w/ AE | Best-of-3 | - | - | - | - | - | - | - | - | - | 73.1 |
| VHS (Ours) | Best-of-4 | - | - | - | - | - | - | - | - | - | 80.5 |
- VHS 与标准的基于 MLLM 的验证器相比,在生成与验证联合时间上减少了 63.3%。
- 在匹配预算的情况下,VHS 在 GenEval 分数上分别比 CLIP 基准验证器高出 3.1%(Best-of-2)、1.7%(Best-of-4)和 0.5%(Best-of-6)。
- VHS 通过绕过解码-编码流水线以及在验证阶段截断不必要的 DiT 层,获得显著的延迟和显存节省。
- 对验证器微调使用加权交叉熵损失可以缓解标签不平衡并提升 GenEval 在各类别上的表现。
- 消融显示中层 DiT 层(如 h7)在语义与计算之间提供最佳权衡,VW 基于对齐的影响大于简单增加 LLM 大小。
- 与 AE 基于的验证器相比,VHS 一贯表现更好,特别是在需要多对象推理和空间关系的类别中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。