Skip to main content
QUICK REVIEW

[논문 리뷰] Mitigating Premature Discretization with Progressive Quantization for Robust Vector Tokenization

Wenhao Zhao, Qiran Zou|arXiv (Cornell University)|2026. 03. 17.
Generative Adversarial Networks and Image Synthesis인용 수 0
한 줄 요약

이 논문은 Progressive Vector Quantization(ProVQ)를 소개합니다. 이는 커리큘럼에서 영감을 얻은 학습 전략으로 만곡(다양체) 예열을 이산화와 분리하여 VQ-VAEs의 조기 이산화를 방지하고, 시각 및 단백질 모달리티 전반에서 재구성 및 생성 품질을 향상시킵니다.

ABSTRACT

Vector Quantization (VQ) has become the cornerstone of tokenization for many multimodal Large Language Models and diffusion synthesis. However, existing VQ paradigms suffer from a fundamental conflict: they enforce discretization before the encoder has captured the underlying data manifold. We term this phenomenon Premature Discretization. To resolve this, we propose Progressive Quantization (ProVQ), which incorporates the dynamics of quantization hardness as a fundamental yet previously overlooked axis in VQ training. By treating quantization as a curriculum that smoothly anneals from a continuous latent space to a discrete one, ProVQ effectively guides the codebook toward the well-expanded manifolds. Extensive experimental results demonstrate the broad effectiveness of ProVQ across diverse modalities. We report improved reconstruction and generative performance on the ImageNet-1K and ImageNet-100 benchmarks, highlighting the ProVQ's boost for generative modeling. Furthermore, ProVQ proves highly effective for modeling complex biological sequences, establishing a new performance ceiling for protein structure tokenization on the StrutTokenBench leaderboard.

연구 동기 및 목표

  • 표준 VQ 학습이 왜 조기 이산화 및 인코더와 코드북 간의 상호 공적응의 교착 상태를 겪는지 식별한다.
  • manifold warmup을 이산화로부터 분리하기 위한 Progressive Vector Quantization(ProVQ)을 제안한다.
  • ImageNet 재구성 및 생성, 그리고 단백질 구조 토큰화 벤치마크에서 ProVQ의 향상을 시연한다.
  • 이산화 병리 현상을 드러내는 합성 진단 도구(TopoDisc)를 제공한다.
  • 만양체 예열과 소프트 전이 구성요소의 유효성을 검증하는 ablation 연구를 제시한다.

제안 방법

  • VQ 학습을 연속적 다양체 예열을 이산 병목 최적화와 분리하는 커리큘럼 학습으로 구성한다.
  • Stage 1: 전역 데이터 구조를 학습하기 위해 표준 연속 자동인코더를 사용한 다양체 예열; 임베딩에 대해 K-Means로 코드북 초기화.
  • Stage 2: 소프트-투-하드 전이를 포함한 스케줄된 이산화로 코사인 감소 스케줄 alpha(t)에 의해 연속 z와 양자화된 z_q 사이를 제어하는 soft latent tilde{z}를 만든다.
  • z_q에 대한 straight-through 추정기를 사용하고 재구성 및 VQ/약속 항을 결합하는 가변 가중치 ω(t)로 가중된 손실을 동적으로 구성한다.
Figure 1 : The Premature Discretization and resulting optimization deadlock. During early training stages, grid mapping forces the embedding distribution to contract and align with a sub-optimal clustered code, while uninformative guidance of embeddings causes the codebook vectors to stagnate. This
Figure 1 : The Premature Discretization and resulting optimization deadlock. During early training stages, grid mapping forces the embedding distribution to contract and align with a sub-optimal clustered code, while uninformative guidance of embeddings causes the codebook vectors to stagnate. This

실험 결과

연구 질문

  • RQ1표준 VQ-VAEs에서 관찰되는 인코더-코드북 공적응 교착 상태를 만곡 예열과 이산화를 분리하면 방지할 수 있는가?
  • RQ2ProVQ가 시각 및 생물학적 서열/토큰화 작업에서 재구성 정확도와 생성 성능을 개선하는가?
  • RQ3소프트 전이와 다양체 예열이 훈련 안정화 및 잠재 공간 활용도 확장에 어떻게 기여하는가?
  • RQ4합성 진단 도구로 이산화 병리 현상을 드러낼 수 있으며 ProVQ가 그것에서 얼마나 잘 작동하는가?
  • RQ5ProVQ가 다운스트림 단백질 구조 모델링 및 토큰화 벤치마크에 어떤 영향을 미치는가?

주요 결과

Latent ResolutionTokenizerrFID ↓PSNR ↑SSIM ↑Perplexity ↑Euc dist ↑
16×16LlamaGen2.1920.790.6758580.301.42
16×16+ ProVQ1.8620.920.6828591.856.49
  • ProVQ는 ImageNet-1K/100에서 재구성 지표를 일관되게 개선하며 baselines에 비해 rFID가 낮고 PSNR/SSIM이 더 높다.
  • LlamaGen-B/L 모델의 생성 성능이 ProVQ로 향상되어 gFID가 낮아지고 Recall이 높아진다.
  • ProVQ는 코드북 활용도와 잠재 공간 다양성을 강화해 perplexity가 더 높고 Euclidean 거리가 커진다.
  • 단백질 토큰화에서 ProVQ + AminoAseed가 기능성 자리, 물리화학적 특성 및 구조 특성 과제에서 평균 성능이 선두를 차지하며 베이스라인을 능가한다.
  • ProVQ는 StructTokenBench에서 여러 과제에 걸쳐 단백질 구조 모델링의 최첨단 성능을 달성한다.
  • 마나이폴드 워밍업과 코사인 기반의 소프트 전이가 최적 성능 달성에 중요하다는 ablation 연구가 확인된다.
Figure 2 : Empirical Validation on Synthetic 2D datasets. (a) Synthetic dataset composed by Disk shape data plus triangle data to make gridding mapping visible by edge of triangle. (b) Comparison of reconstruction performance over different configurations, demonstrating that both the Soft Transition
Figure 2 : Empirical Validation on Synthetic 2D datasets. (a) Synthetic dataset composed by Disk shape data plus triangle data to make gridding mapping visible by edge of triangle. (b) Comparison of reconstruction performance over different configurations, demonstrating that both the Soft Transition

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.