[論文レビュー] LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model
LLaDA-o は長さ適応型のオムニ拡散モデルで、離散テキスト拡散と連続画像拡散を Mixture of Diffusion によりデカップリングし、オムニ拡散モデルの中で最先端の結果を達成し、テキスト-to-画像生成で DPG-Bench 87.04。
We present extbf{LLaDA-o}, an effective and length-adaptive omni diffusion model for multimodal understanding and generation. LLaDA-o is built on a Mixture of Diffusion (MoD) framework that decouples discrete masked diffusion for text understanding and continuous diffusion for visual generation, while coupling them through a shared, simple, and efficient attention backbone that reduces redundant computation for fixed conditions. Building on MoD, we further introduce a data-centric length adaptation strategy that enables flexible-length decoding in multimodal settings without architectural changes. Extensive experiments show that LLaDA-o achieves state-of-the-art performance among omni-diffusion models on multimodal understanding and generation benchmarks, and reaches 87.04 on DPG-Bench for text-to-image generation, supporting the effectiveness of unified omni diffusion modeling. Code is available at https://github.com/ML-GSAI/LLaDA-o.
研究の動機と目的
- Diffusion モデルを用いた統一的なマルチモーダル理解と生成を進展させる。
- 離散テキスト拡散と連続画像拡散をデカップリングして最適化衝突を緩和する。
- アーキテクチャ変更なしで柔軟長のマルチモーダルデコードを可能にする。
- 効率的なアテンション・バックボーンとサンプル分離戦略で推論効率を向上させる。
提案手法
- 理解エキスパートはマスク拡散を用いてテキストと視覚エンコーダトークンを処理、生成エキスパートは視覚潜在トークンに対して連続拡散を用いる Mixture of Diffusion (MoD) フレームワークを採用する。
- 共用の効率的自己注意バックボーンを用いてモダリティ間の相互作用を可能にしつつ、勾配干渉を回避するためモダリティをデカップリングする。
- モダリティ内の双方向アテンションを導入し、シーケンスをモダリティブロックに分割して、ブロック内での全ブロック全体アテンションを効率的に、ブロック間で因果的アテンションを行う。
- アーキテクチャ変更なしで柔軟長デコードを可能にするデータ中心の適応長拡張を導入、訓練時のターゲットのランダムパディング/トランケーションと推論時のブロック単位生成を通じて実現。
- データ難易度と生成忠実度を段階的にスケールさせる三段階訓練を実施し、適応長の段階的導入と高解像度生成を含める。
実験結果
リサーチクエスチョン
- RQ1統一拡散フレームワークは、勾配干渉のない形で離散的なテキストと連続的な画像の両方のモダリティを効果的に扱えるか。
- RQ2テキストと画像拡散を専門エキスパートへデカップリングすることは、モノリシックなモデルと比べてマルチモーダル理解・生成を向上させるか。
- RQ3適応長戦略はアーキテクチャ変更なしで柔軟なオープンエンド生成を可能にし、サンプル分離の喪失を避けられるか。
- RQ4適応長とモダリティ内アテンション下での推論効率と生成品質のトレードオフは LLaDA-o でどう現れるか。
- RQ5標準的なマルチモーダルベンチマークやテキスト-to-画像生成タスクで、従来のオムニ拡散モデルおよび生成専用モデルと比較して、LLaDA-o はどの程度の性能向上を達成するか。
主な発見
- LLaDA-o は十個のマルチモーダル理解ベンチマークでオムニ拡散モデルの中で最先端のパフォーマンスを達成。
- テキスト-to-画像生成では、LLaDA-o は DPG-Bench で 87.04 を達成し、いくつかの従来モデルを上回る。
- 適応長拡張により、アーキテクチャ変更を最小限に抑えつつ柔軟長デコードとブロックサイズ間の強い安定性を実現。
- モダリティ内双方向アテンションは、グローバル双方向アテンションと比べて実務上最大 5.9x のスピードアップをもたらす。
- ステージごとの訓練はテキスト-to-画像生成指標を改善し、Stage 3 が GenEval と DPG-Bench の結果で最良を示す(GenEval 0.82; DPG-Bench 87.0)。
- 生成専用ベースラインと比較して、LLaDA-o は統一的なマルチモーダル機能を維持しつつ、競争力のあるまたは優れた生成品質を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。