QUICK REVIEW

[논문 리뷰] SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers

Hongyi Yuan, Zheng Yuan|arXiv (Cornell University)|2022. 12. 20.

Music and Audio Processing인용 수 20

한 줄 요약

SeqDiffuSeq는 인코더-디코더 Transformer를 사용하여 확산 모델을 시퀀스-투-시퀀스 텍스트 생성으로 확장하고, 자기 조건화(self-conditioning) 및 토큰 수준의 적응적 노이즈 스케줄로 강화되어, 여러 작업에서 DiffuSeq보다 경쟁력 있는 품질과 더 빠른 추론 속도를 달성한다.

ABSTRACT

Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.

연구 동기 및 목표

연속 확산을 인코더-디코더 Transformer 아키텍처를 사용한 시퀀스-투-시퀀스 텍스트 생성으로 확장한다.
자기 조건화를 통해 생성 품질을 개선하고 토큰 수준의 적응 노이즈 스케줄을 도입한다.
여러 작업에서 AR/NAR 기준선 및 DiffuSeq와의 경쟁력 있는 성능을 입증한다.
제안된 기법의 효과를 분석하고 추론 속도 향상을 보여준다.

제안 방법

출력 시퀀스 토큰의 순방향 확산을 입력과 무관하게 가우시안 확산 단계의 매개변수와 함께 연속 임베딩으로 모델링한다( DiffusionLM의 매개변수를 사용).
노이즈 제거 함수에 대해 인코더-디코더 Transformer를 사용하며, 인코더는 입력 시퀀스를 처리하고 디코더는 시간 스텝 조건부로 노이즈가 있는 출력 시퀀스를 모델링한다.
이전의 디노이즈 출력물을 현재 디노이즈 단계에 피드하여 초기 예측에서의 정보를 재사용하는 자기 조건화를 도입한다.
학습 손실로 측정된 각 토큰의 디노이즈 난이도에 따라 시간 스텝 노이즈 레벨로 매핑하는 토큰 수준의 적응형 노이즈 스케줄을 선형 보간으로 도입한다.
변분 하한(variational bound) 목표로 학습하고, 디노이즈 예측이 원래 임베딩을 복구하도록 장려하는 간단한 손실을 도출하되, 정확한 디코딩을 촉진한다.
추론 시 MBR 기반 디코딩을 탐구하여 생성 품질을 향상시키고 다양성과의 트레이드오프를 분석한다.

실험 결과

연구 질문

RQ1인코더-디코더 구조를 가진 확산 기반 시퀀스-투-시퀀스 모델이 AR 및 NAR 기준선에 대항해 텍스트 생성 작업에서 경쟁력 있는 품질을 달성할 수 있는가?
RQ2자기 조건화가 확산 기반 텍스트 생성 중 이전 예측의 활용도를 개선하는가?
RQ3토큰 수준의 적응형 노이즈 스케줄이 고정 스케줄보다 디노이즈 난이도 정렬과 생성 품질에 더 나은 결과를 제공하는가?
RQ4SeqDiffuSeq가 다수의 작업에서 DiffuSeq 및 기타 확산 기반 또는 비확산 기준선과 비교해 속도 및 다양성 측면에서 어떤 차이를 보이는가?

주요 결과

SeqDiffuSeq는 다섯 가지 시퀀스-투-시퀀스 작업에서 AR 및 NAR 기준선과 비교하여 경쟁력 있는 생성 품질과 다양성을 보여준다.
자기 조건화와 적응형 노이즈 스케줄링은 모두 성능을 향상시키며 서로 보완적이다.
SeqDiffuSeq는 인코더 재사용 및 시퀀스 수준의 디노이징으로 DiffuSeq보다 현저히 빠른 추론 속도를 달성하여 런타임을 크게 감소시킨다.
MBR 추론을 사용하면 SeqDiffuSeq가 여러 작업에서 품질을 추가로 향상시킬 수 있지만 다양성과의 트레이드오프가 있다.
번역 작업 전반에 걸쳐 SeqDiffuSeq는 일반적으로 자동회귀 트랜스포머에 비해 뒤처지지만 다수의 비자동회귀 방법을 능가하는 성능을 보이며 DiffuSeq에 비해서도 우수한 편이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.