[논문 리뷰] Scaling Beyond Masked Diffusion Language Models
논문은 Masked Diffusion, Uniform-State Diffusion, Interpolating Diffusion의 세 가지 이산 확산 LLM 계열에 걸친 스케일링 법칙 연구를 수행하여 perplexity가 계통 간 비교에 일관되게 해석되기 어렵고 샘플링 속도–품질의 트레이드오프를 강조하며, 1.7B-parameter 결과에서 Uniform-State diffusion이 특정 작업에서 우수함을 보인다.
Diffusion language models are a promising alternative to autoregressive models due to their potential for faster generation. Among discrete diffusion approaches, Masked diffusion currently dominates, largely driven by strong perplexity on language modeling benchmarks. In this work, we present the first scaling law study of uniform-state and interpolating discrete diffusion methods. We also show that Masked diffusion models can be made approximately 12% more FLOPs-efficient when trained with a simple cross-entropy objective. We find that perplexity is informative within a diffusion family but can be misleading across families, where models with worse likelihood scaling may be preferable due to faster and more practical sampling, as reflected by the speed-quality Pareto frontier. These results challenge the view that Masked diffusion is categorically the future of diffusion language modeling and that perplexity alone suffices for cross-algorithm comparison. Scaling all methods to 1.7B parameters, we show that uniform-state diffusion remains competitive on likelihood-based benchmarks and outperforms autoregressive and Masked diffusion models on GSM8K, despite worse validation perplexity. We provide the code, model checkpoints, and video tutorials on the project page: http://s-sahoo.github.io/scaling-dllms
연구 동기 및 목표
- 언어 과제에서 더 빠른 생성을 위한 자동회귀 모델에 대한 대안으로 diffusion 모델이 타당한 선택임을 제시한다.
- compute 매칭 스케일링 분석을 이용해 세 가지 확산 계열(Masked, Uniform-State, Interpolating)을 체계적으로 비교한다.
- 훈련 목표와 샘플링 방법이 계열 간 효율성과 처리량에 미치는 영향을 정량화한다.
- likelihood 기반 벤치마크와 GSM8K와 같은 추론 데이터 세트에서 1.7B 매개변수로의 확장성을 평가한다.
- perplexity 만으로는 Masked diffusion이 일방적으로 우수하다는 개념에 도전한다.
제안 방법
- MDLM, Uniform-State Diffusion(Duo), Interpolating Diffusion(Eso-LM) 등 세 가지 최첨단 확산 모델 계열을 연구한다.
- 계열 간 검증 손실 및 모델 크기에 대해 compute-matched 스케일링 분석을 수행하여 스케일링 법칙에 맞춘다.
- 처리량과 샘플 품질을 샘플링 단계별로 측정하고 Pareto 프런티어를 구성하여 속도–품질 트레이드오프를 평가한다.
- 1.7B 매개변수에서 likelihood 기반 벤치마크와 수학/추론 데이터셋(GSM8K)에서의 성능을 평가한다.
- 저잡음(MDLM) 손실과 같은 훈련 목표 변형이 계산 효율성에 미치는 영향을 조사한다.
실험 결과
연구 질문
- RQ1Masked Diffusion이 cross-family 스케일링 및 실제 샘플링 효율성을 고려할 때 지배적 확산 패러다임으로 남아 있는가?
- RQ2Uniform-State 및 Interpolating diffusion 모델은 perplexity, 샘플링 속도, 다운스트림 작업 성능 측면에서 Masked diffusion과 어떻게 비교되는가?
- RQ3저분산(training objective)이 MDLM 계산 효율성을 개선하고 compute 최적의 체크포인트를 작은 모델 쪽으로 이동시키는가?
- RQ4compute-matched 조건에서 MDLM, Duo, Eso-LM의 상대적 스케일링 지수와 상수는 어떠한가?
- RQ5다양한 계산 예산과 작업에서 어떤 확산 계열이 가장 우수한 속도–품질 Pareto 프런티어를 제공하는가?
주요 결과
- Perplexity는 확산 계열 내부에서는 정보가 있지만 계통 간에는 오해를 일으키며, 더 빠르고 더 실용적인 샘플링이 바람직할 수 있다.
- Uniform-state diffusion은 likelihood 기반 벤치마크에서 여전히 경쟁력이 있으며, 대규모 감독 미세적 훈련 후 GSM8K에서 AR 및 MDLM을 능가할 수 있다.
- 저변분(저분산) 훈련 목표는 MDLM의 학습 분산을 줄이고 계산 최적 체크포인트를 더 작은 모델로 이동시키며, 추론 비용을 FLOPs 기준으로 약 12% 절감한다.
- 1.7B 매개변수에서 Duo는 여러 계산 구간에서 처리량을 지배하고 미세 조정 후 수학/추론 성능이 강하게 나타나지만 검증 perplexity는 더 나쁘다.
- 속도–품질 프런티어를 해석하면 더 빠른 샘플링과 가이던스 기능이 계통 간 perplexity가 더 나쁜 확산 계열을 실용적으로 경쟁력 있게 만들거나 더 우수하게 만들 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.