[논문 리뷰] DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models
DiffuSeq는 Seq2Seq 텍스트 생성에 classifier-free diffusion 모델을 도입하여 병렬(비자기회귀) 디코딩을 강한 품질과 주목할 만한 다양성으로 가능하게 하고, 확산을 자기회귀 및 반복-NAR 프레임워크와 연결합니다.
Recently, diffusion models have emerged as a new paradigm for generative models. Despite the success in domains using continuous signals such as vision and audio, adapting diffusion models to natural language is under-explored due to the discrete nature of texts, especially for conditional generation. We tackle this challenge by proposing DiffuSeq: a diffusion model designed for sequence-to-sequence (Seq2Seq) text generation tasks. Upon extensive evaluation over a wide range of Seq2Seq tasks, we find DiffuSeq achieving comparable or even better performance than six established baselines, including a state-of-the-art model that is based on pre-trained language models. Apart from quality, an intriguing property of DiffuSeq is its high diversity during generation, which is desired in many Seq2Seq tasks. We further include a theoretical analysis revealing the connection between DiffuSeq and autoregressive/non-autoregressive models. Bringing together theoretical analysis and empirical evidence, we demonstrate the great potential of diffusion models in complex conditional language generation tasks. Code is available at \url{https://github.com/Shark-NLP/DiffuSeq}
연구 동기 및 목표
- Seq2Seq 과제에서 이산적이고 조건부 텍스트 생성을 위한 확산 모델을 동기 부여한다.
- 외부 분류기 없이 소스 시퀀스에 조건을 두는 classifier-free 확산 모델을 개발한다.
- 품질을 유지하면서 다양성을 높이기 위해 비자기회귀 병렬 디코딩을 가능하게 한다.
- DiffuSeq와 AR/iter-NAR/Fully-NAR 모델 간의 이론적 연결고리를 확립한다.
- 여러 Seq2Seq 작업에 걸친 실증적 효과를 입증한다.
제안 방법
- 이산 텍스트 쌍(출처와 타깃)을 공유된 연속 공간에 임베딩하고, 타깃 부분만 섭동시키는 부분적 노이징 순방향 프로세스를 적용한다.
- 보조 분류기 없이 pθ(z t−1|z t)를 학습하기 위해 Transformer 계열 네트워크로 역 노이즈 제거를 모델링한다(classifier-free).
- 소스(wx)와 타깃(wy) 표현의 공동 학습을 위한 통합 Emb(wx ⊕ wy) 임베딩을 사용한다.
- y0 재구성과 임베딩 일관성을 강조하는 단순화된 목적 함수를 사용하여 변분 하한 L_VLB를 도출하고 최소화한다.
- 학습 안정화를 위해 확산 단계에 대한 중요도 샘플링을 적용하고 최종 품질 향상을 위해 MBR 디코딩을 활용한다.
- 자기회귀, 반복-NAR 및 Fully-NAR 모델과의 연결을 확립하고 DiffuSeq가 반복-NAR를 확장한다고 주장한다.
실험 결과
연구 질문
- RQ1확산 모델이 분류기 없이 조건부 Seq2Seq 텍스트 생성에 효과적으로 적용될 수 있을까?
- RQ2부분적 노이징 순방향 프로세스가 조건부 생성 및 출처 wx와 타깃 wy 간 의존성 모델링에 어떤 영향을 미치는가?
- RQ3DiffuSeq와 AR/iter-NAR/Fully-NAR 모델 간의 관계는 무엇이며, DiffuSeq가 품질과 다양성 측면에서 이점을 제공하는가?
- RQ4wx와 wy를 위한 공유 임베딩의 공동 학습이 결합되지 않았거나 미리 추출된 표현과 비교하여 성능을 향상시키는가?
- RQ5확산 기반 Seq2Seq 모델이 표준 Seq2Seq 작업에서 더 강한 다양성과 함께 경쟁력 있는 품질을 달성하는가?
주요 결과
| 작업 | 방법 | BLEU ↑ | R-L ↑ | 점수 ↑ | dist-1 ↑ | selfB ↓ / div-4 ↑ | 길이 |
|---|---|---|---|---|---|---|---|
| Open Domain Dialogue | GRU-attention ⋄ | 0.0068 | 0.1054 | 0.4128 | 0.8998 | 0.8008/0.1824 | 4.46 |
| Open Domain Dialogue | Transformer-base ⋄ | 0.0189 | 0.1039 | 0.4781 | 0.7493 | 0.3698/0.6472 | 19.5 |
| Open Domain Dialogue | GPT2-base FT ∙ | 0.0108 | 0.1508 | 0.5279 | 0.9194 | 0.0182/0.9919 | 16.8 |
| Open Domain Dialogue | GPT2-large FT ∙ | 0.0125 | 0.1002 | 0.5293 | 0.9244 | 0.0213/0.9938 | 16.8 |
| Open Domain Dialogue | GPVAE-T5 ∙ | 0.0110 | 0.1009 | 0.4317 | 0.5625 | 0.3560/0.5551 | 20.1 |
| Open Domain Dialogue | NAR-LevT ‡ | 0.0158 | 0.0550 | 0.4760 | 0.9726 | 0.7103/0.1416 | 4.11 |
| Open Domain Dialogue | DiffuSeq (Ours) ‡ | 0.0139 | 0.1056 | 0.5131 | 0.9467 | 0.0144 / 0.9971 | 13.6 |
| Question Generation | GRU-attention ⋄ | 0.0651 | 0.2617 | 0.5222 | 0.7930 | 0.9999/0.3178 | 10.1 |
| Question Generation | Transformer-base ⋄ | 0.1663 | 0.3441 | 0.6307 | 0.9309 | 0.3265/0.7720 | 10.3 |
| Question Generation | GPT2-base FT ∙ | 0.0741 | 0.2714 | 0.6052 | 0.9602 | 0.1403 / 0.9216 | 10.0 |
| Question Generation | GPT2-large FT ∙ | 0.1110 | 0.3215 | 0.6346 | 0.9670 | 0.2910/0.8062 | 9.96 |
| Question Generation | GPVAE-T5 ∙ | 0.1251 | 0.3390 | 0.6308 | 0.9381 | 0.3567/0.7282 | 11.4 |
| Question Generation | NAR-LevT ‡ | 0.0930 | 0.2893 | 0.5491 | 0.8914 | 0.9830/0.4776 | 6.93 |
| Question Generation | DiffuSeq (Ours) ‡ | 0.1731 | 0.3665 | 0.6123 | 0.9056 | 0.2789 / 0.8103 | 11.5 |
| Text Simplification | GRU-attention ⋄ | 0.3256 | 0.5602 | 0.7871 | 0.8883 | 0.9998/0.3313 | 18.9 |
| Text Simplification | Transformer-base ⋄ | 0.2693 | 0.4907 | 0.7381 | 0.8886 | 0.6924/0.5095 | 18.5 |
| Text Simplification | GPT2-base FT ∙ | 0.3083 | 0.5461 | 0.8021 | 0.9439 | 0.5444/0.6047 | 16.1 |
| Text Simplification | GPT2-large FT ∙ | 0.2693 | 0.5111 | 0.7882 | 0.9464 | 0.6042/0.5876 | 15.4 |
| Text Simplification | GPVAE-T5 ∙ | 0.3392 | 0.5828 | 0.8166 | 0.9308 | 0.8147/0.4355 | 18.5 |
| Text Simplification | NAR-LevT ‡ | 0.2052 | 0.4402 | 0.7254 | 0.9715 | 0.9907/0.3271 | 8.31 |
| Text Simplification | DiffuSeq (Ours) ‡ | 0.3622 | 0.5849 | 0.8126 | 0.9264 | 0.4642 / 0.6604 | 17.7 |
| Paraphrase | GRU-attention ⋄ | 0.1894 | 0.5129 | 0.7763 | 0.9423 | 0.9958/0.3287 | 8.30 |
| Paraphrase | Transformer-base ⋄ | 0.2722 | 0.5748 | 0.8381 | 0.9748 | 0.4483/0.7345 | 11.2 |
| Paraphrase | GPT2-base FT ∙ | 0.1980 | 0.5212 | 0.8246 | 0.9798 | 0.5480/0.6245 | 9.67 |
| Paraphrase | GPT2-large FT ∙ | 0.2059 | 0.5415 | 0.8363 | 0.9819 | 0.7325/0.5020 | 9.53 |
| Paraphrase | GPVAE-T5 ∙ | 0.2409 | 0.5886 | 0.8466 | 0.9688 | 0.5604/0.6169 | 9.60 |
| Paraphrase | NAR-LevT ‡ | 0.2268 | 0.5795 | 0.8344 | 0.9790 | 0.9995/0.3329 | 8.85 |
| Paraphrase | DiffuSeq (Ours) ‡ | 0.2413 | 0.5880 | 0.8365 | 0.9807 | 0.2732 / 0.8641 | 11.2 |
- DiffuSeq는 네 가지 Seq2Seq 작업에서 6개의 강력한 베이스라인과 동등하거나 우수한 품질을 달성하며, 최첨단 PLM 기반 모델을 포함한다.
- DiffuSeq는 일관되게 더 높은 다양성을 제공하며(self-BLEU 감소, div-4 증가) BLEU, ROUGE, BERTScore를 유지한다.
- 모델은 문장 수준에서 강한 다양성을 보여주며 다양성이 활용될 때 자기회귀 베이스라인을 능가할 수 있다(예: MBR에서 더 큰 후보 집합 사용).
- wx와 wy의 공유 임베딩의 공동 학습이 성능에 중요하며, 분리 학습 전략은 결과를 저하시킨다.
- DiffuSeq는 자기회귀, 반복-NAR 및 확산 접근 방식 사이의 이론적 및 실증적 다리를 제공하여 확산을 조건부 언어 생성의 실현 가능한 확장으로 확립한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.