QUICK REVIEW

[논문 리뷰] Tiny Inference-Time Scaling with Latent Verifiers

Davide Bucciarelli, E. Turri|arXiv (Cornell University)|2026. 03. 23.

Generative Adversarial Networks and Image Synthesis인용 수 0

한 줄 요약

논문은 VHS를 소개하는데, 이는 단일 스텝 이미지 생성기의 잠재 숨김 상태에서 작동하는 검증기로, 픽셀 공간으로의 디코딩 없이도 추론 시간 확장성을 더 빠르고 비용 효율적으로 가능하게 한다.

ABSTRACT

Inference-time scaling has emerged as an effective way to improve generative models at test time by using a verifier to score and select candidate outputs. A common choice is to employ Multimodal Large Language Models (MLLMs) as verifiers, which can improve performance but introduce substantial inference-time cost. Indeed, diffusion pipelines operate in an autoencoder latent space to reduce computation, yet MLLM verifiers still require decoding candidates to pixel space and re-encoding them into the visual embedding space, leading to redundant and costly operations. In this work, we propose Verifier on Hidden States (VHS), a verifier that operates directly on intermediate hidden representations of Diffusion Transformer (DiT) single-step generators. VHS analyzes generator features without decoding to pixel space, thereby reducing the per-candidate verification cost while improving or matching the performance of MLLM-based competitors. We show that, under tiny inference budgets with only a small number of candidates per prompt, VHS enables more efficient inference-time scaling reducing joint generation-and-verification time by 63.3%, compute FLOPs by 51% and VRAM usage by 14.5% with respect to a standard MLLM verifier, achieving a +2.7% improvement on GenEval at the same inference-time budget.

연구 동기 및 목표

시용 예산이 충분치 않은 상황에서 시각적 생성 모델의 추론 시간 확장을 동기 부여하고 가능하게 한다.
픽셀 공간 디코딩 및 CLIP 스타일 재인코딩을 피함으로써 검증 오버헤드를 줄인다.
내부 생성기 잠재를 LLM에 맞는 임베딩 공간과 정렬하여 의미 점수를 유지하거나 향상한다.
현실적인 Best-of-N 생성 설정에서 지연과 정확성을 평가한다.
verifier 설계 및 지연 시간 트레이드오프에 대한 경험적 연구를 제공한다.

제안 방법

VHS를 제안하는데, 이는 DiT 기반 단일 스텝 생성기의 hℓ* 숨겨진 상태를 LLM 호환 커넥터의 입력으로 사용하고 이미지 디코딩과 CLIP 기반 재인코딩을 건너뛴다.
합성 이미지-자막 쌍과 재자막화된 감독으로 합alignment 단계에서 DiT 숨겨 표현을 LLM 임베딩 공간과 맞추기 위해 시각 임베더를 훈련한다.
생성 샘플의 Yes/No 라벨링의 클래스 불균형을 다루기 위해 가중 교차 엔트로피로 검증기를 미세 조정한다.
GenEval에서 SANA-Sprint를 생성기로 사용하고 Tiny 예산(Best-of-N) 하에서 MLLM 기반 검증기(CLIP 기반 및 AE 기반)와 VHS를 비교 평가한다.
아블레이션을 통해 DiT 층 선택, 손실 함수, 백본, 학습 데이터의 영향력을 분석한다.

실험 결과

연구 질문

RQ1잠재 상태 검증기가 생성기 숨 표현에서 직접 작동하여 픽셀 공간 검증기에 비해 제한된 추론 예산에서 성능을 달성하거나 능가할 수 있는가?
RQ2검증에서 디코드-인코드 단계를 건너뛰면 얼마나 많은 지연 시간, FLOPs, VRAM이 절약될 수 있는가?
RQ3제한된 예산에서 GenEval 정확도에 대해 서로 다른 DiT 층과 검증 손실이 어떤 영향을 미치는가?
RQ4잠재 표상을 LLM 입력 공간에 맞추는 것만으로 외부 시각 인코더 없이 효과적인 의미 점수를 얻을 수 있는가?
RQ5VHS가 단일 스텝 생성기에 대해 얼마나 잘 일반화되는가?

주요 결과

예산	생성기	단계	검증기	Best-of-N	단일	두 개	개수	색상	위치	귀속	전체
200ms	SANA-Sprint	1	-	Best-of-1	99.3	88.1	56.0	87.6	54.1	47.8	71.6
550ms	SANA-1.5	4	-	Best-of-1	98.8	78.2	66.5	71.1	50.6	20.8	63.0
550ms	SANA-Sprint	8	-	Best-of-1	99.5	91.9	59.3	86.0	57.8	52.4	74.0
MLLM w/ CLIP	Best-of-2	-	-	-	-	-	-	-	-	-	78.8
MLLM w/ AE	Best-of-3	-	-	-	-	-	-	-	-	-	73.1
VHS (Ours)	Best-of-4	-	-	-	-	-	-	-	-	-	80.5

VHS는 표준 MLLM 기반 검증기에 비해 공동 생성-검증 시간을 63.3% 단축한다.
일치한 예산에서 VHS는 GenEval 점수를 CLIP 기반 검증기 대비 Best-of-2에서 3.1%, Best-of-4에서 1.7%, Best-of-6에서 0.5% 향상시킨다.
디코드-인코드 파이프라인을 우회하고 검증 중 불필요한 DiT 계층을 잘라냄으로써 상당한 지연 시간 및 메모리 절감 효과를 얻는다.
가중치가 있는 교차 엔트로피 손실은 라벨 불균형을 완화하고 각 범주에서 GenEval 성능을 향상시킨다.
중간 수준 DiT 계층(h7 등)이 의미와 계산 사이의 최적 절충을 제공하며 VW 기반 정렬이 단순히 LLM 크기를 늘리는 것보다 더 큰 영향을 준다는 것을 시사한다.
AE 기반 검증기에 비해 VHS는 특히 다중 객체 추론 및 공간 관계를 요구하는 범주에서 일관되게 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.