Skip to main content
QUICK REVIEW

[논문 리뷰] Large Language Diffusion Models

Shen Nie, Fengqi Zhu|ArXiv.org|2025. 02. 14.
Topic Modeling인용 수 4
한 줄 요약

LLaDA는 처음부터 학습된 확산 기반 대형 언어 모델을 도입하여 자기회귀 기반 기준선과의 경쟁력 있는 성능과 8B 매개변수에서의 강력한 문맥 학습, 지시 수행, 역방향 추론을 달성합니다.

ABSTRACT

The capabilities of large language models (LLMs) are widely regarded as relying on autoregressive models (ARMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA employs a forward data masking process and a reverse generation process, parameterized by a Transformer to predict masked tokens. It provides a principled generative approach for probabilistic inference by optimizing a likelihood lower bound. Across extensive benchmarks on general tasks, math, code, and so on, LLaDA demonstrates strong scalability and performs comparably to our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings show the promise of diffusion models for language modeling at scale and challenge the common assumption that core LLM capabilities discussed above inherently depend on ARMs. Project page and codes: https://ml-gsai.github.io/LLaDA-demo/.

연구 동기 및 목표

  • 자autogressive 모델이 LLM의 유일한 실행 가능 경로라는 개념에 도전하고 확산 기반 대안을 제시하는 것(LLaDA).
  • 처음부터 8B 매개변수로 확장하고 2.3조 토큰으로 사전 학습하며 4.5백만 쌍에 대해 감독 미세 조정한다.
  • 언어 이해, 수학, 코드, 중국어 과제 전반에서 LLaDA를 평가하고 문맥 학습, 지시 수행, 역방향 추론에 초점을 맞춘다.
  • 확산 모델이 LLM 설정에서 쌍방향 의존성과 원칙적 가능도 기반 생성을 달성할 수 있음을 Demonstrate 한다

제안 방법

  • 전방 마스킹 프로세스가 점진적으로 토큰을 가리고 역방 마스킹-예측기가 이를 복구하는 마스크드 확산 모델(MDM)을 정의한다.
  • 마스크된 토큰에 대해 교차 엔트로피 손실(eq. 3)을 사용하여 하한 로그 가능도를 최적화하고 eq. (4)에서 bound를 활용해 원칙적 학습을 수행한다.
  • 토큰 2.3T에서 Transformer 기반 마스크 예측기를 사전 학습하며(8B 및 1B 변형), 가변 마스킹 비율 t~U[0,1] 및 4096 토큰 시퀀스 길이를 사용한다.
  • 4.5M 지시 수행 쌍(eq. 5)에 대해 p_theta(r0|p0)를 최적화하여 감독 미세 조정(SFT)을 수행한다.
  • 추정 가능한 역 확산 과정을 통한 추론과 유연한 재마스킹 전략(저신뢰도 재마스킹 및 반자 autoregressive 재마스킹)을 사용한 평가; 안정적 가능도 유사 형태(eq. 6)로 평가한다.
  • LLaDA를 일반, 수학, 코드, 중국어 도메인에서 15개 작업에 대해 자기회귀 기준선 및 오픈 LLM과 비교하고, 10^23 FLOPs까지의 확장성을 분석한다.

실험 결과

연구 질문

  • RQ1자 autoregressive 패러다임이 핵심 LLM 능력을 달성하는 데 필요한가, 아니면 확산 기반 생성 모델링이 충분한가?
  • RQ2LLaDA가 8B 매개변수까지 확장되어 다양한 작업에서 강력한 ARM 기반 LLM과 비슷한 성능에 도달할 수 있는가?
  • RQ3문맥 학습, 지시 수행, 그리고 역방향 추론 능력이 확산 기반 LLM에서 어떻게 나타나는가?
  • RQ4확산 기반 LLM에서 효율성 및 샘플 품질의 균형을 가장 잘 맞추는 샘플링/재마스킹 전략은 무엇인가?

주요 결과

  • LLaDA 8B는 10^23 FLOPs의 계산 예산에서 여섯 가지 작업에서 자체 구성된 ARM 기준선과 함께 경쟁력 있는 성능을 달성한다.
  • LLaDA 8B는 LLaMA2 7B를 상회하고 거의 모든 zero/few-shot 작업에서 LLaMA3 8B와 동등하며 수학 및 중국어에서 이점이 있다.
  • SFT 이후 LLaDA는 다중 턴 대화 사례에서 강한 지시 수행 능력을 보인다.
  • 역방향 추론에서 LLaDA는 역전 저주를 효과적으로 완화하고 역방향 시 대시 Poems 완성 작업에서 GPT-4o를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.