[논문 리뷰] Continuous diffusion for categorical data
이 연구는 CDCD를 도입한다. 연속 확산 모델링을 이산 범주 데이터에 적용하기 위해 토큰을 유클리드 공간에 임베딩하고, 점수 보간과 교차 엔트로피로 학습하며, 효율적인 학습을 위해 시간 왜곡을 적용하는 프레임워크로서 언어 모델링 및 번역 태스크에서 시연된다.
Diffusion models have quickly become the go-to paradigm for generative modelling of perceptual signals (such as images and sound) through iterative refinement. Their success hinges on the fact that the underlying physical phenomena are continuous. For inherently discrete and categorical data such as language, various diffusion-inspired alternatives have been proposed. However, the continuous nature of diffusion models conveys many benefits, and in this work we endeavour to preserve it. We propose CDCD, a framework for modelling categorical data with diffusion models that are continuous both in time and input space. We demonstrate its efficacy on several language modelling tasks.
연구 동기 및 목표
- 언어와 같은 이산 범주 데이터에 대한 연속 확산을 가능하게 하고 이를 고무시키는 것.
- 토큰을 유클리드 공간에 임베딩하여 시간 공간 및 입력 공간의 연속성을 보존하는 프레임워크를 제안하는 것.
- 점수 보간과 엔드투엔드 임베딩 확산으로 학습을 개발하는 것.
- 효율적인 학습을 위한 신호 레벨 샘플링에 적응하는 시간 왜곡을 도입하는 것.
제안 방법
- 이산 토큰을 연속 유클리드 공간에 임베딩하고 확산 모델과 함께 임베딩을 공동으로 학습한다.
- 교차 엔트로피를 통해 로짓에서 점수 함수를 추정하기 위해 점수 보간을 사용하여 엔드투엔드 학습을 가능하게 한다(Equation 6–8).
- 임베딩에 대해 L2 정규화를 적용하여 임베딩 붕괴를 방지하고, x0 추정의 재정규화를 선택적으로 수행하는 확산 모델을 학습한다.
- 훈련 손실에서 도출된 누적 분포 함수(CDF)에 따라 비균일하게 확산 타임스텝을 샘플링하여 시간 왜곡을 적용한다(Equation 9).
- 프롬프트 완성 및 인필링과 같은 언어 모델링 태스크에 대해 Transformer 기반 아키텍처에서 CDCD를 구현하고, 기계 번역을 위한 인코더–디코더 설정에서도 적용한다.
실험 결과
연구 질문
- RQ1연속 확산이 토큰을 유클리드 공간에 임베딩함으로써 이산 범주 데이터에 효과적으로 적용될 수 있는가?
- RQ2점수 보간과 교차 엔트로피의 결합이 언어 데이터에 대한 확산 모델의 안정적이고 엔드투엔드 학습을 가능하게 하는가?
- RQ3시간 왜곡이 CDCD의 샘플 품질과 학습 효율성을 어떻게 개선하는가?
- RQ4CDCD가 언어 태스크 및 번역에서 마스킹/접두 conditioning을 포함한 조건 생성도 지원하여 확산의 이점을 해치지 않는가?
주요 결과
- CDCD는 점수 보간과 교차 엔트로피 손실을 사용하여 이산 데이터에 대한 확산 모델의 엔드투엔드 학습을 가능하게 한다.
- 정규화를 동반한 공동 학습 임베딩은 붕괴를 방지하고 학습 가능한 모델을 제공한다.
- 시간 왜곡은 정보성 있는 노이즈 수준에 학습을 집중시켜 샘플링의 효율성과 품질을 향상시킨다.
- 프레임워크는 프롬프트 완성 및 인필링을 위한 마스크-조건 Transformer 아키텍처를 지원한다.
- CDCD는 적절한 조건부 제어를 가진 인코더–디코더 Transformer 설정을 통해 기계 번역에 적용 가능하다.
- CDCD 하의 확산 기반 언어 모델은 주의(attention) 마스킹 없이도 작동할 수 있어 자 autoregressive 모델과 달리 아키텍처적 유연성을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.