QUICK REVIEW

[논문 리뷰] Structured Denoising Diffusion Models in Discrete State-Spaces

Jacob Austin|arXiv (Cornell University)|2021. 07. 07.

Generative Adversarial Networks and Image Synthesis참고 문헌 51인용 수 82

한 줄 요약

본 논문은 Structured Denoising Diffusion Models in Discrete State-Spaces (D3PMs) 를 통해 구조화된 전이 행렬을 가진 이산 데이터에 확산-유사 오염을 적용하고, 새로운 보조 손실로 학습을 개선하며, 강력한 텍스트 및 이미지 결과를 달성한다.

ABSTRACT

Denoising diffusion probabilistic models (DDPMs) (Ho et al. 2020) have shown impressive results on image and waveform generation in continuous state spaces. Here, we introduce Discrete Denoising Diffusion Probabilistic Models (D3PMs), diffusion-like generative models for discrete data that generalize the multinomial diffusion model of Hoogeboom et al. 2021, by going beyond corruption processes with uniform transition probabilities. This includes corruption with transition matrices that mimic Gaussian kernels in continuous space, matrices based on nearest neighbors in embedding space, and matrices that introduce absorbing states. The third allows us to draw a connection between diffusion models and autoregressive and mask-based generative models. We show that the choice of transition matrix is an important design decision that leads to improved results in image and text domains. We also introduce a new loss function that combines the variational lower bound with an auxiliary cross entropy loss. For text, this model class achieves strong results on character-level text generation while scaling to large vocabularies on LM1B. On the image dataset CIFAR-10, our models approach the sample quality and exceed the log-likelihood of the continuous-space DDPM model.

연구 동기 및 목표

확산 개념을 사용하여 이산 데이터(텍스트와 이미지)에 대한 생성 모형화를 개선하려는 동기 부여.
일반 이산 확산을 균일한 오염을 넘어 구조화된 전이로 일반화한다.
성능 향상을 촉진하는 학습 가능한 역과 안정화 보조 손실을 개발한다.
텍스트의 대형 어휘와 긴 시퀀스 및 이미지 데이터에 대한 확장성을 보여준다.
비자기회귀 베이스라인과의 비교를 통해 로그 가능도 및 샘플 품질에 경쟁력을 보인다.

제안 방법

forward 전이 q(x_t|x_{t-1}) 를 Q_t 행렬로 표현된 이산 K-카테고리 변수에 대한 일반적 확산 프레임워크를 정의한다.
정규화된 순방향 프로세스를 사용하여 q(x_t|x_0) = Cat(x_t; p = x_0 Q̄_t) 및 Q̄_t = Q_1 Q_2 ... Q_t 를 만족시킨다.
역 프로세스 p_θ(x_{t-1}|x_t) 를 x_0 조건 로짓으로 매개변수화하여 q(x_{t-1}|x_t,x_0) 와의 정렬 및 Q_t에 의해 결정되는 희소성을 유지한다.
L_λ = L_vb + λ E_q,E_q[-log p̃_θ(x_0|x_t)] 를 도입하여 각 단계에서 정확한 x_0 예측을 격려하는 보조 디노이징 목표를 제시한다.
구조화된 순방향 행렬(균일, 흡수/마스크, 이산화된 가우시안, 임베딩 기반 유사도) 및 대응하는 노이즈 스케줄을 탐구한다.
truncated discretized logistic 과 같은 ordinal 데이터 및 k-스텝 추론과 함께 x_0-매개화의 옵션을 제시한다.

실험 결과

연구 질문

RQ1구조화된 오염을 가진 이산 확산 모델이 텍스트와 이미지 작업에서 이전의 이산 확산 접근법을 능가할 수 있는가?
RQ2다양한 순방향 전이 행렬(균일, 흡수/마스크, 이산화 Gaussian, 임베딩 기반)이 샘플 품질과 로그 가능도에 어떤 영향을 미치는가?
RQ3보조 손실 L_λ 가 학습 안정성 및 생성 품질을 across 도메인에서 향상시키는가?
RQ4D3PM은 대형 어휘 및 긴 시퀀스의 텍스트 및 일반 이미지 데이터 세트로 얼마나 잘 확장되는가?
RQ5D3PM 과 자기회귀 또는 마스킹 언어 모델 간의 연결고리는 무엇인가?

주요 결과

D3PMs 의 흡수(마스크) 전이가 텍스트8에서 강력한 텍스트 생성 결과를 보여주며 균일 및 NN 변형보다 우수하다.
LM1B에서 D3PM 흡수 접근은 대형 어휘로 확장 가능하며 비교적 적은 추론 스텝으로 경쟁력 있는 perplexities를 보인다.
CIFAR-10의 경우 L_vb 목표를 가진 D3PM Gauss(이산화 가우시안)가 테스트된 변형들 중 가장 높은 IS, FID, NLL를 보이며, L_λ 의 추가로 절단 기반 역 모델링과 결합했을 때 성능이 더 향상된다.
보조 디노이징 목표의 이점이 있는 L_λ 손실과 함께 D3PM 흡수 모델은 강력한 텍스트 결과를 보여준다.
텍스트에서 D3PM 흡수 접근은 8k 어휘 및 128 길이 시퀀스로 확장되며, 일부 설정에서 자기회귀 모델에 근접하고 빠른 샘플링을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.