[論文レビュー] Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
CubiD は高次元の離散生成モデルを導入し、3D h×w×d テンソルのトークンをマスクして予測することで、高次元表現トークン上で直接効率的に生成を行い、ImageNet 256×256 で最先端の離散生成を達成します。
Visual generation with discrete tokens has gained significant attention as it enables a unified token prediction paradigm shared with language models, promising seamless multimodal architectures. However, current discrete generation methods remain limited to low-dimensional latent tokens (typically 8-32 dims), sacrificing the semantic richness essential for understanding. While high-dimensional pretrained representations (768-1024 dims) could bridge this gap, their discrete generation poses fundamental challenges. In this paper, we present Cubic Discrete Diffusion (CubiD), the first discrete generation model for high-dimensional representations. CubiD performs fine-grained masking throughout the high-dimensional discrete representation -- any dimension at any position can be masked and predicted from partial observations. This enables the model to learn rich correlations both within and across spatial positions, with the number of generation steps fixed at $T$ regardless of feature dimensionality, where $T \ll hwd$. On ImageNet-256, CubiD achieves state-of-the-art discrete generation with strong scaling behavior from 900M to 3.7B parameters. Crucially, we validate that these discretized tokens preserve original representation capabilities, demonstrating that the same discrete tokens can effectively serve both understanding and generation tasks. We hope this work will inspire future research toward unified multimodal architectures. Code is available at: https://github.com/YuqingWang1029/CubiD.
研究の動機と目的
- 理解タスクのセマンティック品質を損なうことなく、高次元表現トークンを離散化できることを実証する。
- CubiD を提案し、3D テンソル全体にわたる細粒度のマスキング拡散モデルで高次元離散トークンを効率的に生成する。
- 複数のエンコーダにまたがる高次元トークンで ImageNet-256 での強力なスケーリングと最先端結果を示す。
提案手法
- frozen エンコーダから高次元特徴を次元ごとに量子化して h×w×d 離散トークンを取得する。
- 3D テンソル全体に対して細粒度のマスキングを用いて CubiD を訓練し、空間軸と次元軸のトークンをランダムにマスクして交差エントロピーで予測する。
- h×w のトークンそれぞれが次元 d を持つ双方向注意機構を用いる Transformer を用いて、各空間位置のすべての次元を並列に予測する。
- 推論時にはコサインスケジュールを伴う数百回の反マスクing ステップで生成し、d に依存しない O(T) 反復を実現する。
- FID、IS、マルチモーダル理解指標で評価し、生成品質と表現意味の保持の両方を検証する。

実験結果
リサーチクエスチョン
- RQ1高次元表現トークン(768–1024 次元)を大きな semantic quality をほとんど損なうことなく離散化できるか。
- RQ2次元レベルでマスクする拡散フレームワークで、h×w×d 離散トークンを効率的にモデル化・生成できるか。
- RQ3CubiD はモデルサイズや ImageNet 256×256 世代の異なる高次元エンコーダで効果的にスケールするか。
主な発見
- 次元ごとの量子化は再構成とマルチモーダル理解タスクの連続的意味品質を保持する。
- 3D テンソル全体に対する細粒度の per-element マスキングが重要で、次元ごとまたは空間ごとのマスクは品質を大幅に劣化させる。
- CubiD は token 次元性に依存せず、およそ 256–512 回程度の hundreds iterations で強い生成品質を提供し、946M から 3.7B パラメータへと良くスケールする。
- CubiD は高次元トークンを用いた ImageNet 256×256 で最先端の離散生成を実現し、gFID は高次元トークンで 1.88(XXL モデル)まで低下する。
- このアプローチは表現エンコーダ(DINOv2-B および SigLIP2-B)間で一般化され、理解タスクと生成タスクの両方をサポートするトークンの能力を保持する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。