[論文レビュー] Large Language Diffusion Models
LLaDA はスクラッチから訓練された拡散ベースの大規模言語モデルを導入し、自己回帰ベースラインと競合する性能および強力な文脈内学習、指示従い、反転推論を8Bパラメータで実現します。
The capabilities of large language models (LLMs) are widely regarded as relying on autoregressive models (ARMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA employs a forward data masking process and a reverse generation process, parameterized by a Transformer to predict masked tokens. It provides a principled generative approach for probabilistic inference by optimizing a likelihood lower bound. Across extensive benchmarks on general tasks, math, code, and so on, LLaDA demonstrates strong scalability and performs comparably to our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings show the promise of diffusion models for language modeling at scale and challenge the common assumption that core LLM capabilities discussed above inherently depend on ARMs. Project page and codes: https://ml-gsai.github.io/LLaDA-demo/.
研究の動機と目的
- 自己回帰モデルが唯一の有望なパスであるという観念に挑戦し、拡散ベースの代替手段(LLaDA)を提案する。
- スクラッチからスケールして8Bパラメータにし、2.3兆トークンで事前訓練を行い、4.5百万ペアで監督付き微調整を行う。
- 言語理解、数学、コード、中国語タスク全般でLLaDAを評価し、文脈内学習、指示従い、反転推論に焦点を当てる。
- 拡散モデルがLLM設定において双方向の依存関係と原理的な尤度ベース生成を達成できることを実証する。
提案手法
- 前方のマスク処理がトークンを徐々に隠すマスク付き拡散モデル(MDM)を定義し、逆マスク予測子がそれらを回復する。
- マスクトークンに対するクロスエントロピー損失(式3)を用いた下限対数尤度を最適化し、式(4)の境界を原理的な訓練に活用する。
- 2.3Tトークン(8Bおよび1Bバリアント)で変化するマスキング比t~U[0,1]と4096トークン長でトランスフォーマー型マスク予測子を事前訓練。
- 4.5Mの指示従いペアに対してp_theta(r0|p0)を最適化することで監督付き微調整(SFT)を実施(式5)。
- 推論は離散化された逆拡散プロセスと柔軟なリマスキング戦略(低信頼リマスキングおよび半自己回帰リマスキング)を用い、安定した尤度様似形式(式6)で評価する。
- LLaDA を自己回帰ベースラインおよびオープンLLMと比較し、一般・数学・コード・中国語分野の15タスクを横断して分析し、最大10^23 FLOPs までの拡張性を評価する。
実験結果
リサーチクエスチョン
- RQ1自己回帰パラダイムはコアなLLM能力を達成するために必須か、それとも拡散ベースの生成モデリングで十分か。
- RQ2LLaDA が8Bパラメータへスケールし、多様なタスクで強力な ARM ベースのLLMと同等の性能を達成できるか。
- RQ3文脈内学習、指示従い、反転推論の能力は拡散ベースのLLMでどのように現れるか。
- RQ4拡散ベースのLLM におけるサンプリング/リマスキング戦略は、効率とサンプル品質をどう最適にバランスさせるか。
主な発見
- LLaDA 8B は自己構築の ARM ベースラインと六つのタスクで競争的な性能を発揮し、計算予算は最大10^23 FLOPs。
- LLaDA 8B は LLaMA2 7B を上回り、ほぼすべてのゼロショット/少数ショットタスクで LLaMA3 8B と同等、数学と中国語で優位。
- SFT 後、LLaDA は指示従い能力を強く示し、多回対話ケースで実証。
- 反転推論において、LLaDA は反転呪いを効果的に軽減し、反転詩の完成タスクで GPT-4o を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。