QUICK REVIEW

[論文レビュー] Mitigating Premature Discretization with Progressive Quantization for Robust Vector Tokenization

Wenhao Zhao, Qiran Zou|arXiv (Cornell University)|Mar 17, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

本論文は Progressive Vector Quantization (ProVQ) を提案。マニホールドのウォームアップを離散化から分離するカリキュラムに基づく訓練戦略で、Premature Discretization を回避し、視覚モダリティとタンパク質モダリティの再構成と生成を改善する。

ABSTRACT

Vector Quantization (VQ) has become the cornerstone of tokenization for many multimodal Large Language Models and diffusion synthesis. However, existing VQ paradigms suffer from a fundamental conflict: they enforce discretization before the encoder has captured the underlying data manifold. We term this phenomenon Premature Discretization. To resolve this, we propose Progressive Quantization (ProVQ), which incorporates the dynamics of quantization hardness as a fundamental yet previously overlooked axis in VQ training. By treating quantization as a curriculum that smoothly anneals from a continuous latent space to a discrete one, ProVQ effectively guides the codebook toward the well-expanded manifolds. Extensive experimental results demonstrate the broad effectiveness of ProVQ across diverse modalities. We report improved reconstruction and generative performance on the ImageNet-1K and ImageNet-100 benchmarks, highlighting the ProVQ's boost for generative modeling. Furthermore, ProVQ proves highly effective for modeling complex biological sequences, establishing a new performance ceiling for protein structure tokenization on the StrutTokenBench leaderboard.

研究の動機と目的

標準的な VQ 訓練が Premature Discretization とエンコーダーとコードブック間の相互適応のデッドロックを引き起こす理由を特定する。
マニホールドのウォームアップを離散化から分離する Progressive Vector Quantization (ProVQ) を提案する。
ImageNet の再構成と生成、およびタンパク質構造トークン化ベンチマークで ProVQ の改善を実証する。
離散化の病理を可視化する合成診断ツール（TopoDisc）を提供する。
マニホールドウォームアップとソフト遷移成分の有効性を検証するアブレーションを示す。

提案手法

VQ 訓練をカリキュラム学習として位置づけ、連続的マニホールドのウォームアップと離散的ボトルネック最適化を分離する。
ステージ1：標準的な連続オートエンコーダを用いたマニホールドウォームアップでデータの全体構造を学習し、埋め込みから K-means でコードブックを初期化。
ステージ2：コサイン減衰スケジュール alpha(t) によるソフト→ハード遷移を用いた離散化を導入し、連続的 z と量子化された z_q の間のソフト潜在変数 tilde{z} を制御。
z_q に対してストレートスルー推定量を使用し、再構成と VQ/強制項の加重損失を適応的重み omega(t) で組み合わせて動的に重み付けする。

Figure 1 : The Premature Discretization and resulting optimization deadlock. During early training stages, grid mapping forces the embedding distribution to contract and align with a sub-optimal clustered code, while uninformative guidance of embeddings causes the codebook vectors to stagnate. This

実験結果

リサーチクエスチョン

RQ1素朴な VQ-VAEs で観察されるエンコーダーとコードブックの共適応デッドロックを、マニホールドウォームアップを離散化から切り離すことで防げるか？
RQ2ProVQ は視覚的・生物学的シーケンス/トークン化タスクにおいて再構成忠実度と生成性能を改善するか？
RQ3ソフト遷移とマニホールドウォームアップは訓練の安定性と潜在空間利用をどう寄与するか？
RQ4離散化病理を明らかにする合成診断ツールは存在するか、ProVQ はそれでどれだけ性能を発揮するか？
RQ5ProVQ は下流のタンパク質構造モデリングとトークン化ベンチマークにどのように影響するか？

主な発見

潜在解像度	トークナイザー	rFID ↓	PSNR ↑	SSIM ↑	Perplexity ↑	Euc dist ↑
16×16	LlamaGen	2.19	20.79	0.675	8580.30	1.42
16×16	+ ProVQ	1.86	20.92	0.682	8591.85	6.49

ProVQ は ImageNet-1K/100 で再構成指標を一貫して改善（低 rFID、PSNR/SSIM の向上）し、ベースラインと比較して優位。
LlamaGen-B/L モデルで ProVQ による生成性能が向上（低い gFID、Recall の向上）。
ProVQ はコードブックの利用率を高め、潜在空間の多様性を拡張（高い perplexity と大きい Euc dist）。
タンパク質トークン化では ProVQ + AminoAseed が機能部位、物理化学的性質、構造特性タスクでリード平均を達成し、ベースラインを上回る。
StructTokenBench においてタンパク質構造モデリングの複数タスクで最先端の性能を達成。
アブレーション研究はマニホールドウォームアップとコサインベースのソフト遷移の重要性を確認し、最良の性能を得ることを示す。

Figure 2 : Empirical Validation on Synthetic 2D datasets. (a) Synthetic dataset composed by Disk shape data plus triangle data to make gridding mapping visible by edge of triangle. (b) Comparison of reconstruction performance over different configurations, demonstrating that both the Soft Transition

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。