Skip to main content
QUICK REVIEW

[논문 리뷰] Adaptation to Intrinsic Dependence in Diffusion Language Models

Yunxiao Zhao, Changxiao Cai|arXiv (Cornell University)|2026. 02. 23.
Topic Modeling인용 수 0
한 줄 요약

논문은 확산 언어 모델을 위한 분포-에 구애받지 않는 무작위 마스킹 해제 스케줄을 제안하며, 본질적 데이터 의존성에 적응하고 병렬 샘플링에서 KL 수렴 보장을 제공합니다.

ABSTRACT

Diffusion language models (DLMs) have recently emerged as a promising alternative to autoregressive (AR) approaches, enabling parallel token generation beyond a rigid left-to-right order. Despite growing empirical success, the theoretical understanding of how unmasking schedules -- which specify the order and size of unmasked tokens during sampling -- affect generation quality remains limited. In this work, we introduce a distribution-agnostic unmasking schedule for DLMs that adapts to the (unknown) dependence structure of the target data distribution, without requiring any prior knowledge or hyperparameter tuning. In contrast to prior deterministic procedures that fix unmasking sizes, our method randomizes the number of tokens revealed at each iteration. We show that, for two specific parameter choices, the sampling convergence guarantees -- measured by Kullback-Leibler (KL) divergence -- scale as $\widetilde O(\mathsf{TC}/K)$ and $\widetilde O(\mathsf{DTC}/K)$ respectively. Here, $K$ is the number of iterations, and $\mathsf{TC}$ and $\mathsf{DTC}$ are the total correlation and dual total correlation of the target distribution, capturing the intrinsic dependence structure underlying the data. Importantly, our guarantees hold in the practically relevant parallel-sampling regime $K

연구 동기 및 목표

  • 확산 언어 모델(DLMs)에서 샘플링 효율성과 정확도 간의 트레이드오프를 동기부여하고 해결합니다.
  • 사전 지식 없이도 알려지지 않은 데이터 구조에 적응하는 분포-에 구애받지 않는 무작위 마스킹 해제 스케줄을 제안합니다.
  • 고유 데이터 지표(TC/DTC)에 의존하는 이론적 KL-발산 수렴 보장을 확립합니다.
  • 낮은 복잡도 분포에 대해 K < L인 병렬 샘플링을 가속화할 수 있음을 보여줍니다.

제안 방법

  • 각 반복에서 무작정 마스킹 해제 집합 크기를 무작위로 선택하는 무작위 마스킹 해제 스킴을 도입합니다.
  • 두 가지 구체적 스킴인 TC-적응형과 DTC-적응형을 제시하며, 대응하는 계수 및 가중치 정의를 제공합니다.
  • KL 기반 수렴 보장이 TC(X)/K 및 DTC(X)/(K−log(L−1)−1)에 비례해 확장된다는 것을 제시합니다.
  • 보장이 K < L인 병렬 샘플링 구간에서 성립함을 보입니다.
  • 조건부 주변분포를 주변의 곱의 근사(Eq. 3)를 통해 예측하는 마스크 예측자 학습 목표를 설명합니다.
  • 마스킹 해제 스킴의 계산 비용 및 선행 계산을 논의합니다(O(KL) 선계산; 이후 샘플링은 O(K+L)).
Figure 1: Empirical mean unmasking size vs. iteration index $k$ : (a) TC-adaptive scheme $\pi_{\mathsf{tc}}$ ; (b) DTC-adaptive scheme $\pi_{\mathsf{dtc}}$ . The total number of iterations is $K=1000$ and the sequence length is $L=2000$ .
Figure 1: Empirical mean unmasking size vs. iteration index $k$ : (a) TC-adaptive scheme $\pi_{\mathsf{tc}}$ ; (b) DTC-adaptive scheme $\pi_{\mathsf{dtc}}$ . The total number of iterations is $K=1000$ and the sequence length is $L=2000$ .

실험 결과

연구 질문

  • RQ1사전 지식 없이도 UNKNOWN 데이터 구조에 적응하는 무작위 마스킹 해제 스케줄을 설계할 수 있습니까?
  • RQ2목표 분포의 TC와 DTC가 DLM 샘플링의 KL 수렴 속도에 어떻게 의존합니까?
  • RQ3TC- 및 DTC-적응형 스케줄이 K < L일 때 병렬 샘플링에서 실제 이점을 제공합니까?
  • RQ4실무에서 무작위 마스킹 해제 스케줄을 구현하는 계산 비용과 실현 가능성은 어떠합니까?

주요 결과

  • 분포-에 구애받지 않는 무작위 마스킹 해제 스케줄이 TC(X) 또는 DTC(X)에 의존하는 KL 수렴 보장을 달성합니다.
  • TC-적응형 스킴은 TC(X)/K에 비례하는 경계가 log L 인자까지 확장됩니다.
  • DTC-적응형 스킴은 DTC(X)/(K−log(L−1)−1)에 비례하는 경계가 log 인자까지 확장됩니다.
  • K < L인 병렬 생성 구간에서 보장이 성립하여 저복잡도 분포에 대해 더 빠른 샘플링을 가능하게 합니다.
  • 선행 지식이나 TC/DTC의 추정 없이 본질적 구조에 적응하는 두 가지 구체적 스킴이 제시됩니다.
  • 해제 크기를 무작위로 정하는 것은 분포-에 구애받는 적응성에 있어 결정적입니다.
Figure 2: Expected KL error of the TC-adaptive unmasking scheme $\pi_{\mathsf{tc}}$ : (a) KL error vs. iteration number $K$ for codimension $L-d=5$ ; (b) KL error vs. TC for number of iterations $K=500$ . Sequence length $L=2000$ and alphabet size $q=2048$ .
Figure 2: Expected KL error of the TC-adaptive unmasking scheme $\pi_{\mathsf{tc}}$ : (a) KL error vs. iteration number $K$ for codimension $L-d=5$ ; (b) KL error vs. TC for number of iterations $K=500$ . Sequence length $L=2000$ and alphabet size $q=2048$ .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.