[논문 리뷰] Diffusion In Diffusion: Reclaiming Global Coherence in Semi-Autoregressive Diffusion
Diffusion in Diffusion을 소개합니다. 이는 작은 블록 드래프팅과 글로벌 양방향 수정으로 전 세계적 일관성을 회복하는 다단계 드래프트-그 다음Refine 프레임워크로, OpenWebText에서 modest한 파인튜닝 예산으로도 강한 혼란도(perplexity) 이득을 달성합니다.
One of the most compelling features of global discrete diffusion language models is their global bidirectional contextual capability. However, existing block-based diffusion studies tend to introduce autoregressive priors, which, while offering benefits, can cause models to lose this global coherence at the macro level. To regain global contextual understanding while preserving the advantages of the semi-autoregressive paradigm, we propose Diffusion in Diffusion, a 'draft-then-refine' framework designed to overcome the irreversibility and myopia problems inherent in block diffusion models. Our approach first employs block diffusion to generate rapid drafts using small blocks, then refines these drafts through global bidirectional diffusion with a larger bidirectional receptive field. We utilize snapshot confidence remasking to identify the most critical tokens that require modification, and apply mix-scale training to expand the block diffusion model's global capabilities. Empirical results demonstrate that our approach sets a new benchmark for discrete diffusion models on the OpenWebText dataset. Using only 26% of the fine-tuning budget of baseline models, we reduce generative perplexity from 25.7 to 21.9, significantly narrowing the performance gap with autoregressive models.
연구 동기 및 목표
- semi-autoregressive diffusion 모델에서 글로벌 일관성과 추론 효율성 간의 trade-off를 동기부여하고 해결한다.
- 작은 블록으로 드래프트하고 큰 블록 글로벌 디퓨전을 통해 정제하는 구조적 디퓨전 프레임워크를 제안한다.
- 스냅샷 신뢰도 재마스크를 도입하여 단계별로 수정할 토큰을 선택한다.
- 여러 블록 크기에 걸친 효과적 학습을 가능하게 하는 믹스-스케일 학습 목표를 개발한다.
제안 방법
- 점진적으로 증가하는 블록 크기로 다단계 생성 파이프라인을 제안한다(드래프트 then revise).
- 스냅샷 신뢰도에 기반한 인터스테이지 재마스킹으로 수정할 토큰을 선택한다.
- 수정 단계에서 더 큰 수용 영역으로 전체적 양방향 확산 단계를 적용한다.
- 드래프팅과 수정 능력을 균형 있게 하기 위한 이중 모드(block size 분포) 혼합 스케일 학습 목표를 도입한다.
- BD3-LM 체크포인트에서 사전 학습된 110M 파라미터 트랜스포머를 초기화하여 OpenWebText에서 학습/평가한다.
- 구조적 블록 확산 샘플링 알고리즘(Algorithm 1)을 제공한다.

실험 결과
연구 질문
- RQ1다단계 블록 확산 프레임워크가 속도 저하 없이 반자기회귀 확산 모델에서 글로벌 일관성을 회복할 수 있는가?
- RQ2스냅샷 신뢰도 기반 재마스킹이 수정의 이점을 주는 토큰을 효과적으로 식별하는가?
- RQ3혼합 스케일 학습이 드래프팅(작은 블록)과 수정(큰 블록) 단계 간 일반화를 개선하는가?
- RQ4OpenWebText에 드래프트-그 다음Refine 패러다임을 도입했을 때 데이터-효율성 향상은 어느 정도인가?
주요 결과
| 모델 | 생성 PPL (L=1024) | NFEs (L=1024) | 생성 PPL (L=2048) | NFEs (L=2048) |
|---|---|---|---|---|
| AR | 14.1 | 1K | 13.2 | 2K |
| SEDD | 52.0 | 1K | 41.3 | 2K |
| MDLM | 46.8 | 1K | 35.3 | 2K |
| SSD-LM (L'=25) | 37.2 | 40K | 35.3 | 80K |
| BD3-LM (L'=16) | 33.4 | 1K | 31.5 | 2K |
| BD3-LM (L'=8) | 30.4 | 1K | 28.2 | 2K |
| BD3-LM (L'=4) | 25.7 | 1K | 23.6 | 2K |
| Ours (Stage 1 only) | 27.4 | 1.0K | 25.1 | 2.0K |
| Ours (Full 2-Stage) | 24.6 | 1.1K | 22.5 | 2.2K |
| Ours (Stage 2+ Stage 3?) | 22.6 | 1.2K | 21.2 | 2.5K |
| Ours (Full) | 21.9 | 1.5K | 20.6 | 3.0K |
- 1단계(드래프트)에서 L=1024 기준 Gen PPL이 27.4에 도달; 2단계(전체 수정)에서 Gen PPL이 21.9로 감소하여 상대적으로 약 20% 개선을 달성한다.
- 조정 예산의 26%만으로도 2단계 방법이 단일 패스 블록 확산 기준선보다 우수하며 자기회귀 품질에 근접한다.
- 스냅샷 신뢰도 재마스킹이 수정에 이익이 되는 토큰을 안내하는 데 있어 무작위 마스킹 및 사후 신뢰도 전략보다 우수하다.
- 믹스-스케일 학습(블록 크기 4와 1024의 이중 모드)이 드래프팅과 글로벌 수정을 가능하게 하는 데 필수적이며, 단일 스케일 학습은 수정에서 실패한다.
- OpenWebText에서 이 규모의 이산 확산 모델에 대해 강력한 품질-효율성 트레이드를 가진 새로운 최첨단을 확립한다.
- 자기회귀 기준선과 비교할 때 본 방법은 혼합된 글로벌 수용 영역을 블록 확산에 다시 도입하는 효과를 보여 혼돈도(perplexity) 격차를 좁힌다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.