[논문 리뷰] The Diffusion Duality, Chapter II: $Ψ$-Samplers and Efficient Curriculum
Ψ-posteriors와 Predictor-Corrector 샘플러를 임의의 사전분포를 가지는 이산 확산에 도입하여 샘플링 품질을 개선하고 Gaussian 완화 학습 중 메모리 효율적인 커리큘럼을 가능하게 한다.
Uniform-state discrete diffusion models excel at few-step generation and guidance due to their ability to self-correct, making them preferred over autoregressive or Masked diffusion models in these settings. However, their sampling quality plateaus with ancestral samplers as the number of steps increases. We introduce a family of Predictor-Corrector (PC) samplers for discrete diffusion that generalize prior methods and apply to arbitrary noise processes. When paired with uniform-state diffusion, our samplers outperform ancestral sampling on both language and image modeling, achieving lower generative perplexity at matched unigram entropy on OpenWebText and better FID/IS scores on CIFAR10. Crucially, unlike conventional samplers, our PC methods continue to improve with more sampling steps. Taken together, these findings call into question the assumption that Masked diffusion is the inevitable future of diffusion-based language modeling. Beyond sampling, we develop a memory-efficient curriculum for the Gaussian relaxation training phase, reducing training time by 25% and memory by 33% compared to Duo while maintaining comparable perplexity on OpenWebText and LM1B and strong downstream performance. We release code, checkpoints, and a video-tutorial on: https://s-sahoo.com/duo-ch2
연구 동기 및 목표
- USDM(Uniform-State Diffusion Models)와 같이 이산 확산에 대한 더 나은 샘플링 방법의 개발을 동기화한다.
- 앞방향 확산과 동일한 주변 분포를 공유하지만 remasking과 보정을 가능하게 하는 비마르코프 포스터리어스(Ψ-posteriors) 계열을 정의한다.
- 샘플링 단계가 증가함에 따라 샘플 품질을 향상시키기 위해 Predictor와 Corrector 단계를 결합한 Ψ-samplers를 제안한다.
- 가우시안 이완 훈련에 대한 메모리 효율 커리큘럼을 개발하여 perplexity나 다운스트림 성능을 해치지 않으면서 학습 속도를 높인다.
제안 방법
- Ψ-posteriors를 앞으로 진행 과정(forward process)과 역 포스터리어스(reverse posteriors)의 선형 결합으로 정의하여 비마르코프적이지만 주변 분포가 일관된 샘플러를 산출한다.
- 예측-수정(PC) 샘플러를 임의의 사전(MDM 및 USDM)에 대해 일반화하고, 이것들이 기존 PC 방법을 어떻게 확장하는지 보인다.
- Ψ-posteriors에 대한 NELBO를 형식화하고 확산 변환 연산자를 통해 Gaussian 잠재 변수와 연결한다.
- perplexity와 다운스트림 정확도를 유지하면서 학습 시간과 피크 메모리를 낮추는 메모리 효율 커리큘럼을 도입한다.
- 이산 데이터에 대한 분류기 기반 및 분류기 없는 가이던스 적응을 포함한 확산 가이던스 개념을 설명한다.

실험 결과
연구 질문
- RQ1Ψ-samplers가 기존의 ancestral 샘플러와 remasking 샘플러에 비해 임의의 사전으로 이루어진 이산 확산의 생성 품질을 향상시키는가?
- RQ2비마르코프 Ψ-posteriors가 forward 확산과 동일한 주변 분포를 유지하면서 remasking과 향상된 추론을 가능하게 하는가?
- RQ3제안된 메모리 효율 커리큘럼이 perplexity나 다운스트림 성능을 해치지 않으면서 Gaussian relaxation 학습을 가속하는가?
- RQ4Ψ-samplers가 기존 방법에 비해 언어 모델링 및 이미지 모델링 벤치마크에서 어떻게 성능을 보이는가?
주요 결과
- Ψ-samplers가 임의의 노이즈 분포에 대해 이전 방법을 일반화하고 샘플링 단계 수가 증가함에 따라 생성 품질을 향상시킨다.
- Ψ-posteriors는 forward 모멘트 일관성을 유지하면서도 오류를 보정하는 Predictor-Corrector 단계를 가능하게 한다.
- USDM에서 Ψ-samplers는 언어 및 이미지 작업에서 ancestral sampling을 능가하고 높은 NFE 구간에서 마스킹된 확산 모델과의 격차를 줄인다.
- 메모리 효율 커리큘럼은 perplexity 및 다운스트림 성능을 유지하면서 학습 시간과 피크 메모리 사용량을 크게 줄인다.
- 가이던스 메커니즘(CFG)은 Ψ-sampler 프레임워크 내에서 이산 확산 하에서 생성 방향을 제어하는 데 적용될 수 있다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.