QUICK REVIEW

[논문 리뷰] DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models

Shansan Gong, Mukai Li|arXiv (Cornell University)|2022. 10. 17.

Topic Modeling인용 수 94

한 줄 요약

DiffuSeq는 Seq2Seq 텍스트 생성에 classifier-free diffusion 모델을 도입하여 병렬(비자기회귀) 디코딩을 강한 품질과 주목할 만한 다양성으로 가능하게 하고, 확산을 자기회귀 및 반복-NAR 프레임워크와 연결합니다.

ABSTRACT

Recently, diffusion models have emerged as a new paradigm for generative models. Despite the success in domains using continuous signals such as vision and audio, adapting diffusion models to natural language is under-explored due to the discrete nature of texts, especially for conditional generation. We tackle this challenge by proposing DiffuSeq: a diffusion model designed for sequence-to-sequence (Seq2Seq) text generation tasks. Upon extensive evaluation over a wide range of Seq2Seq tasks, we find DiffuSeq achieving comparable or even better performance than six established baselines, including a state-of-the-art model that is based on pre-trained language models. Apart from quality, an intriguing property of DiffuSeq is its high diversity during generation, which is desired in many Seq2Seq tasks. We further include a theoretical analysis revealing the connection between DiffuSeq and autoregressive/non-autoregressive models. Bringing together theoretical analysis and empirical evidence, we demonstrate the great potential of diffusion models in complex conditional language generation tasks. Code is available at \url{https://github.com/Shark-NLP/DiffuSeq}

연구 동기 및 목표

Seq2Seq 과제에서 이산적이고 조건부 텍스트 생성을 위한 확산 모델을 동기 부여한다.
외부 분류기 없이 소스 시퀀스에 조건을 두는 classifier-free 확산 모델을 개발한다.
품질을 유지하면서 다양성을 높이기 위해 비자기회귀 병렬 디코딩을 가능하게 한다.
DiffuSeq와 AR/iter-NAR/Fully-NAR 모델 간의 이론적 연결고리를 확립한다.
여러 Seq2Seq 작업에 걸친 실증적 효과를 입증한다.

제안 방법

이산 텍스트 쌍(출처와 타깃)을 공유된 연속 공간에 임베딩하고, 타깃 부분만 섭동시키는 부분적 노이징 순방향 프로세스를 적용한다.
보조 분류기 없이 pθ(z t−1|z t)를 학습하기 위해 Transformer 계열 네트워크로 역 노이즈 제거를 모델링한다(classifier-free).
소스(wx)와 타깃(wy) 표현의 공동 학습을 위한 통합 Emb(wx ⊕ wy) 임베딩을 사용한다.
y0 재구성과 임베딩 일관성을 강조하는 단순화된 목적 함수를 사용하여 변분 하한 L_VLB를 도출하고 최소화한다.
학습 안정화를 위해 확산 단계에 대한 중요도 샘플링을 적용하고 최종 품질 향상을 위해 MBR 디코딩을 활용한다.
자기회귀, 반복-NAR 및 Fully-NAR 모델과의 연결을 확립하고 DiffuSeq가 반복-NAR를 확장한다고 주장한다.

실험 결과

연구 질문

RQ1확산 모델이 분류기 없이 조건부 Seq2Seq 텍스트 생성에 효과적으로 적용될 수 있을까?
RQ2부분적 노이징 순방향 프로세스가 조건부 생성 및 출처 wx와 타깃 wy 간 의존성 모델링에 어떤 영향을 미치는가?
RQ3DiffuSeq와 AR/iter-NAR/Fully-NAR 모델 간의 관계는 무엇이며, DiffuSeq가 품질과 다양성 측면에서 이점을 제공하는가?
RQ4wx와 wy를 위한 공유 임베딩의 공동 학습이 결합되지 않았거나 미리 추출된 표현과 비교하여 성능을 향상시키는가?
RQ5확산 기반 Seq2Seq 모델이 표준 Seq2Seq 작업에서 더 강한 다양성과 함께 경쟁력 있는 품질을 달성하는가?

주요 결과

작업	방법	BLEU ↑	R-L ↑	점수 ↑	dist-1 ↑	selfB ↓ / div-4 ↑	길이
Open Domain Dialogue	GRU-attention ⋄	0.0068	0.1054	0.4128	0.8998	0.8008/0.1824	4.46
Open Domain Dialogue	Transformer-base ⋄	0.0189	0.1039	0.4781	0.7493	0.3698/0.6472	19.5
Open Domain Dialogue	GPT2-base FT ∙	0.0108	0.1508	0.5279	0.9194	0.0182/0.9919	16.8
Open Domain Dialogue	GPT2-large FT ∙	0.0125	0.1002	0.5293	0.9244	0.0213/0.9938	16.8
Open Domain Dialogue	GPVAE-T5 ∙	0.0110	0.1009	0.4317	0.5625	0.3560/0.5551	20.1
Open Domain Dialogue	NAR-LevT ‡	0.0158	0.0550	0.4760	0.9726	0.7103/0.1416	4.11
Open Domain Dialogue	DiffuSeq (Ours) ‡	0.0139	0.1056	0.5131	0.9467	0.0144 / 0.9971	13.6
Question Generation	GRU-attention ⋄	0.0651	0.2617	0.5222	0.7930	0.9999/0.3178	10.1
Question Generation	Transformer-base ⋄	0.1663	0.3441	0.6307	0.9309	0.3265/0.7720	10.3
Question Generation	GPT2-base FT ∙	0.0741	0.2714	0.6052	0.9602	0.1403 / 0.9216	10.0
Question Generation	GPT2-large FT ∙	0.1110	0.3215	0.6346	0.9670	0.2910/0.8062	9.96
Question Generation	GPVAE-T5 ∙	0.1251	0.3390	0.6308	0.9381	0.3567/0.7282	11.4
Question Generation	NAR-LevT ‡	0.0930	0.2893	0.5491	0.8914	0.9830/0.4776	6.93
Question Generation	DiffuSeq (Ours) ‡	0.1731	0.3665	0.6123	0.9056	0.2789 / 0.8103	11.5
Text Simplification	GRU-attention ⋄	0.3256	0.5602	0.7871	0.8883	0.9998/0.3313	18.9
Text Simplification	Transformer-base ⋄	0.2693	0.4907	0.7381	0.8886	0.6924/0.5095	18.5
Text Simplification	GPT2-base FT ∙	0.3083	0.5461	0.8021	0.9439	0.5444/0.6047	16.1
Text Simplification	GPT2-large FT ∙	0.2693	0.5111	0.7882	0.9464	0.6042/0.5876	15.4
Text Simplification	GPVAE-T5 ∙	0.3392	0.5828	0.8166	0.9308	0.8147/0.4355	18.5
Text Simplification	NAR-LevT ‡	0.2052	0.4402	0.7254	0.9715	0.9907/0.3271	8.31
Text Simplification	DiffuSeq (Ours) ‡	0.3622	0.5849	0.8126	0.9264	0.4642 / 0.6604	17.7
Paraphrase	GRU-attention ⋄	0.1894	0.5129	0.7763	0.9423	0.9958/0.3287	8.30
Paraphrase	Transformer-base ⋄	0.2722	0.5748	0.8381	0.9748	0.4483/0.7345	11.2
Paraphrase	GPT2-base FT ∙	0.1980	0.5212	0.8246	0.9798	0.5480/0.6245	9.67
Paraphrase	GPT2-large FT ∙	0.2059	0.5415	0.8363	0.9819	0.7325/0.5020	9.53
Paraphrase	GPVAE-T5 ∙	0.2409	0.5886	0.8466	0.9688	0.5604/0.6169	9.60
Paraphrase	NAR-LevT ‡	0.2268	0.5795	0.8344	0.9790	0.9995/0.3329	8.85
Paraphrase	DiffuSeq (Ours) ‡	0.2413	0.5880	0.8365	0.9807	0.2732 / 0.8641	11.2

DiffuSeq는 네 가지 Seq2Seq 작업에서 6개의 강력한 베이스라인과 동등하거나 우수한 품질을 달성하며, 최첨단 PLM 기반 모델을 포함한다.
DiffuSeq는 일관되게 더 높은 다양성을 제공하며(self-BLEU 감소, div-4 증가) BLEU, ROUGE, BERTScore를 유지한다.
모델은 문장 수준에서 강한 다양성을 보여주며 다양성이 활용될 때 자기회귀 베이스라인을 능가할 수 있다(예: MBR에서 더 큰 후보 집합 사용).
wx와 wy의 공유 임베딩의 공동 학습이 성능에 중요하며, 분리 학습 전략은 결과를 저하시킨다.
DiffuSeq는 자기회귀, 반복-NAR 및 확산 접근 방식 사이의 이론적 및 실증적 다리를 제공하여 확산을 조건부 언어 생성의 실현 가능한 확장으로 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.