QUICK REVIEW

[論文レビュー] DREAM: Where Visual Understanding Meets Text-to-Image Generation

Chao Li, Tianhong Li|arXiv (Cornell University)|Mar 3, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

DREAMは、マスキングウォームアップ戦略と自己誘導的な意味的整合デコードプロセスを組み合わせて、単一モデル内で識別的および生成的目的を共同最適化し、強力な視覚表現と高品質なテキストから画像生成を実現します。

ABSTRACT

Unifying visual representation learning and text-to-image (T2I) generation within a single model remains a central challenge in multimodal learning. We introduce DREAM, a unified framework that jointly optimizes discriminative and generative objectives, while learning strong visual representations. DREAM is built on two key techniques: During training, Masking Warmup, a progressive masking schedule, begins with minimal masking to establish the contrastive alignment necessary for representation learning, then gradually transitions to full masking for stable generative training. At inference, DREAM employs Semantically Aligned Decoding to align partially masked image candidates with the target text and select the best one for further decoding, improving text-image fidelity (+6.3%) without external rerankers. Trained solely on CC12M, DREAM achieves 72.7% ImageNet linear-probing accuracy (+1.1% over CLIP) and an FID of 4.25 (+6.2% over FLUID), with consistent gains in few-shot classification, semantic segmentation, and depth estimation. These results demonstrate that discriminative and generative objectives can be synergistic, allowing unified multimodal models that excel at both visual understanding and generation.

研究の動機と目的

単一モデルでテキストから画像生成と視覚表現学習を統一する動機づけ。
対比整列とMARスタイル生成を両立させるトレーニングダイナミクスの開発。
進行的なマスキング戦略を通じて頑健で言語に整列した視覚表現の学習。
推論時の生成ガイダンスをモデル自身の整合信号（意味的整合デコード）を用いて実現。
標準ベンチマークで識別タスクと生成品質の向上を示す。

提案手法

Stable Diffusion VAEによる連続的な画像トークン化とViTベースのエンコーダ–デコーダを用い、エンコーダは視覚表現を学習し、拡散モデルベースのデコーダで生成を行う。
マスキングウォームアップの適用：低いマスキング（約15%）から始め、エポックごとに平均が上昇する切り捨てガウスからサンプリングしてマスキングを徐々に増加させ、その後高いマスキングを固定してトレーニングを安定化。
条件データ分布でジェネレーターを訓練するために拡散再構成損失を統合し、改良されたDDPMスケジュールを使用。
画像とテキスト表現を整合させるためにCLIP風の対比学習を導入し、画像対テキストの対称項とCLIP損失のマスキング上限を設定。
デコーダをテキストに条件づけるため、別のテキスト整合パスを導入（整合のためのCLIPトークン化テキスト、生成のためのSentencePiece+T5-XXL）。
意味的整合デコードを導入：部分的にデコードされた複数候補を生成し、内部対比整合で評価して最上位の候補のみを完全デコードして、外部リランキングなしで忠実度と整合性を向上させる。

実験結果

リサーチクエスチョン

RQ1単一モデルで視覚表現と高品質なテキスト-画像生成を、視覚エンコーダの凍結なしに同時に学習できるか。
RQ2進行的マスキング戦略（マスキングウォームアップ）は識別と生成の目的を効果的に調整できるか。
RQ3推論時の意味的整合デコードは外部リランキングなしで内部モデル整合信号を用いてテキスト–画像の忠実度を向上させるか。
RQ4共同の識別-生成学習がfew-shot分類、セマンティックセグメンテーション、深度推定などの下流タスクにどのような実証的利益をもたらすか。
RQ5DREAMは表現品質と生成忠実度の両方でモデルサイズに応じてどうスケールするか。

主な発見

DREAMはImageNet-1K線形プローブ精度72.7%を達成し、CLIPを1.1%上回る。
DREAMはCC12M-50KでFID 4.25、CLIPスコア30.1を達成し、FLUIDをFIDで6.2%上回る。
MS-COCOのゼロショット生成ではDREAMはCLIPスコア31.5、競合的なFID（10.4）。
DREAMはfew-shot分類、セマンティックセグメンテーション（ADE20KのmIoU 36.8%）および深度推定（NYU Depth v2 RMSE 0.60）で一貫した改善を示す。
意味的整合デコードはテキスト–画像の忠実度を6.3%改善し、外部リランキングより最大で高速化（最大10.1%速い）を実現。
DREAMは強力な表現を維持しつつ高品質な画像生成を実現し、モデルサイズ（L, H, G）で改善を示し、遮蔽下でのゼロショット耐性も堅牢。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。