[논문 리뷰] Tiny Inference-Time Scaling with Latent Verifiers
논문은 VHS를 소개하는데, 이는 단일 스텝 이미지 생성기의 잠재 숨김 상태에서 작동하는 검증기로, 픽셀 공간으로의 디코딩 없이도 추론 시간 확장성을 더 빠르고 비용 효율적으로 가능하게 한다.
Inference-time scaling has emerged as an effective way to improve generative models at test time by using a verifier to score and select candidate outputs. A common choice is to employ Multimodal Large Language Models (MLLMs) as verifiers, which can improve performance but introduce substantial inference-time cost. Indeed, diffusion pipelines operate in an autoencoder latent space to reduce computation, yet MLLM verifiers still require decoding candidates to pixel space and re-encoding them into the visual embedding space, leading to redundant and costly operations. In this work, we propose Verifier on Hidden States (VHS), a verifier that operates directly on intermediate hidden representations of Diffusion Transformer (DiT) single-step generators. VHS analyzes generator features without decoding to pixel space, thereby reducing the per-candidate verification cost while improving or matching the performance of MLLM-based competitors. We show that, under tiny inference budgets with only a small number of candidates per prompt, VHS enables more efficient inference-time scaling reducing joint generation-and-verification time by 63.3%, compute FLOPs by 51% and VRAM usage by 14.5% with respect to a standard MLLM verifier, achieving a +2.7% improvement on GenEval at the same inference-time budget.
연구 동기 및 목표
- 시용 예산이 충분치 않은 상황에서 시각적 생성 모델의 추론 시간 확장을 동기 부여하고 가능하게 한다.
- 픽셀 공간 디코딩 및 CLIP 스타일 재인코딩을 피함으로써 검증 오버헤드를 줄인다.
- 내부 생성기 잠재를 LLM에 맞는 임베딩 공간과 정렬하여 의미 점수를 유지하거나 향상한다.
- 현실적인 Best-of-N 생성 설정에서 지연과 정확성을 평가한다.
- verifier 설계 및 지연 시간 트레이드오프에 대한 경험적 연구를 제공한다.
제안 방법
- VHS를 제안하는데, 이는 DiT 기반 단일 스텝 생성기의 hℓ* 숨겨진 상태를 LLM 호환 커넥터의 입력으로 사용하고 이미지 디코딩과 CLIP 기반 재인코딩을 건너뛴다.
- 합성 이미지-자막 쌍과 재자막화된 감독으로 합alignment 단계에서 DiT 숨겨 표현을 LLM 임베딩 공간과 맞추기 위해 시각 임베더를 훈련한다.
- 생성 샘플의 Yes/No 라벨링의 클래스 불균형을 다루기 위해 가중 교차 엔트로피로 검증기를 미세 조정한다.
- GenEval에서 SANA-Sprint를 생성기로 사용하고 Tiny 예산(Best-of-N) 하에서 MLLM 기반 검증기(CLIP 기반 및 AE 기반)와 VHS를 비교 평가한다.
- 아블레이션을 통해 DiT 층 선택, 손실 함수, 백본, 학습 데이터의 영향력을 분석한다.
실험 결과
연구 질문
- RQ1잠재 상태 검증기가 생성기 숨 표현에서 직접 작동하여 픽셀 공간 검증기에 비해 제한된 추론 예산에서 성능을 달성하거나 능가할 수 있는가?
- RQ2검증에서 디코드-인코드 단계를 건너뛰면 얼마나 많은 지연 시간, FLOPs, VRAM이 절약될 수 있는가?
- RQ3제한된 예산에서 GenEval 정확도에 대해 서로 다른 DiT 층과 검증 손실이 어떤 영향을 미치는가?
- RQ4잠재 표상을 LLM 입력 공간에 맞추는 것만으로 외부 시각 인코더 없이 효과적인 의미 점수를 얻을 수 있는가?
- RQ5VHS가 단일 스텝 생성기에 대해 얼마나 잘 일반화되는가?
주요 결과
| 예산 | 생성기 | 단계 | 검증기 | Best-of-N | 단일 | 두 개 | 개수 | 색상 | 위치 | 귀속 | 전체 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 200ms | SANA-Sprint | 1 | - | Best-of-1 | 99.3 | 88.1 | 56.0 | 87.6 | 54.1 | 47.8 | 71.6 |
| 550ms | SANA-1.5 | 4 | - | Best-of-1 | 98.8 | 78.2 | 66.5 | 71.1 | 50.6 | 20.8 | 63.0 |
| 550ms | SANA-Sprint | 8 | - | Best-of-1 | 99.5 | 91.9 | 59.3 | 86.0 | 57.8 | 52.4 | 74.0 |
| MLLM w/ CLIP | Best-of-2 | - | - | - | - | - | - | - | - | - | 78.8 |
| MLLM w/ AE | Best-of-3 | - | - | - | - | - | - | - | - | - | 73.1 |
| VHS (Ours) | Best-of-4 | - | - | - | - | - | - | - | - | - | 80.5 |
- VHS는 표준 MLLM 기반 검증기에 비해 공동 생성-검증 시간을 63.3% 단축한다.
- 일치한 예산에서 VHS는 GenEval 점수를 CLIP 기반 검증기 대비 Best-of-2에서 3.1%, Best-of-4에서 1.7%, Best-of-6에서 0.5% 향상시킨다.
- 디코드-인코드 파이프라인을 우회하고 검증 중 불필요한 DiT 계층을 잘라냄으로써 상당한 지연 시간 및 메모리 절감 효과를 얻는다.
- 가중치가 있는 교차 엔트로피 손실은 라벨 불균형을 완화하고 각 범주에서 GenEval 성능을 향상시킨다.
- 중간 수준 DiT 계층(h7 등)이 의미와 계산 사이의 최적 절충을 제공하며 VW 기반 정렬이 단순히 LLM 크기를 늘리는 것보다 더 큰 영향을 준다는 것을 시사한다.
- AE 기반 검증기에 비해 VHS는 특히 다중 객체 추론 및 공간 관계를 요구하는 범주에서 일관되게 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.