Skip to main content
QUICK REVIEW

[論文レビュー] Scaling Beyond Masked Diffusion Language Models

Subham Sekhar Sahoo, Jean-Marie Lemercier|arXiv (Cornell University)|Feb 16, 2026
Topic Modeling被引用数 0
ひとこと要約

要約: 本論文は、3つの離散拡散LLMファミリー(マスクド拡散、均一状態拡散、補間拡散)を横断するスケーリング法則の研究を行い、困惑度はファミリー間で比較できないことを示し、サンプリングの速度と品質のトレードオフを強調する。1.7Bパラメータの結果も含まれ、均一状態拡散が特定のタスクで優れることを示す。

ABSTRACT

Diffusion language models are a promising alternative to autoregressive models due to their potential for faster generation. Among discrete diffusion approaches, Masked diffusion currently dominates, largely driven by strong perplexity on language modeling benchmarks. In this work, we present the first scaling law study of uniform-state and interpolating discrete diffusion methods. We also show that Masked diffusion models can be made approximately 12% more FLOPs-efficient when trained with a simple cross-entropy objective. We find that perplexity is informative within a diffusion family but can be misleading across families, where models with worse likelihood scaling may be preferable due to faster and more practical sampling, as reflected by the speed-quality Pareto frontier. These results challenge the view that Masked diffusion is categorically the future of diffusion language modeling and that perplexity alone suffices for cross-algorithm comparison. Scaling all methods to 1.7B parameters, we show that uniform-state diffusion remains competitive on likelihood-based benchmarks and outperforms autoregressive and Masked diffusion models on GSM8K, despite worse validation perplexity. We provide the code, model checkpoints, and video tutorials on the project page: http://s-sahoo.github.io/scaling-dllms

研究の動機と目的

  • 拡散モデルが言語タスクにおける高速生成のための自己回帰モデルの実行代替として有望である理由を動機づける。
  • 3つの拡散ファミリー(マスクド、均一状態、補間)を計算量を揃えてスケーリング分析で体系的に比較する。
  • 訓練目的とサンプリング方法がファミリー間の効率性とスループットに与える影響を定量化する。
  • 1.7Bパラメータでの尤度ベースのベンチマークとGSM8Kのような推論データセットでのスケーラビリティを評価する。
  • 困惑度だけに基づくマスクド拡散が圧倒的に優れているとの見方に挑戦する。

提案手法

  • 最先端の拡散モデルファミリー3種を研究する:マスクド拡散(MDLM)、均一状態拡散(Duo)、補間拡散(Eso-LM)。
  • ファミリー間で検証ロスとモデルサイズのスケーリング法則を適合させるための計算量を揃えたスケーリング分析を実施する。
  • スループットとサンプル品質をサンプリングステップごとに測定し、速度-品質のトレードオフを評価してパレート前沿を構築する。
  • 1.7Bパラメータで尤度ベースのベンチマークと数学/推論データセット(GSM8K)での性能を評価する。
  • 低分散MDLMロスなどの訓練目的の変動と、それが計算効率に与える影響を調査する。

実験結果

リサーチクエスチョン

  • RQ1ファミリー間のスケーリングと実用的なサンプリング効率を考慮した場合、マスクド拡散は依然として支配的な拡散パラダイムであるか。
  • RQ2均一状態拡散と補間拡散は、困惑度、サンプリング速度、下流タスクの性能の点でマスクド拡散と比較してどうか。
  • RQ3低分散トレーニング目的はMDLMの計算効率を改善し、計算最適なチェックポイントを小さなモデルへずらせるか。
  • RQ4計算量を揃えた条件で、MDLM、Duo、Eso-LMの相対的なスケーリング指数と定数はどうなるか。
  • RQ5異なる計算予算とタスク間で、どの拡散ファミリーが最高のスピード-品質のパレート前線を示すか。

主な発見

  • 困惑度は拡散ファミリー内では有用だが、ファミリー間では誤解を招く。より速く実用的なサンプリングが好まれる場合がある。
  • 均一状態拡散は尤度ベースのベンチマークで依然として競争力があり、大規模学習後の監視付きファインチューニングでGSM8KにおいてARやMDLMを上回ることがある。
  • 低分散トレーニング目的はMDLMの訓練分散を減らし、計算最適チェックポイントを小さなモデル方向へ傾け、推論コストを約12%のFLOPs削減に寄与する。
  • 1.7BパラメータでDuoは複数の計算レジームでスループットを支配し、ファインチューニング後の数学/推論性能が良好である一方、検証困惑度は劣る。
  • サンプル速度とガイダンス能力の前沿を解釈すると、ファミリー間で困惑度が劣る拡散でも実務上競合・優位になることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。