Skip to main content
QUICK REVIEW

[논문 리뷰] DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models

Shansan Gong, Mukai Li|arXiv (Cornell University)|2022. 10. 17.
Topic Modeling인용 수 94
한 줄 요약

DiffuSeq는 Seq2Seq 텍스트 생성에 classifier-free diffusion 모델을 도입하여 병렬(비자기회귀) 디코딩을 강한 품질과 주목할 만한 다양성으로 가능하게 하고, 확산을 자기회귀 및 반복-NAR 프레임워크와 연결합니다.

ABSTRACT

Recently, diffusion models have emerged as a new paradigm for generative models. Despite the success in domains using continuous signals such as vision and audio, adapting diffusion models to natural language is under-explored due to the discrete nature of texts, especially for conditional generation. We tackle this challenge by proposing DiffuSeq: a diffusion model designed for sequence-to-sequence (Seq2Seq) text generation tasks. Upon extensive evaluation over a wide range of Seq2Seq tasks, we find DiffuSeq achieving comparable or even better performance than six established baselines, including a state-of-the-art model that is based on pre-trained language models. Apart from quality, an intriguing property of DiffuSeq is its high diversity during generation, which is desired in many Seq2Seq tasks. We further include a theoretical analysis revealing the connection between DiffuSeq and autoregressive/non-autoregressive models. Bringing together theoretical analysis and empirical evidence, we demonstrate the great potential of diffusion models in complex conditional language generation tasks. Code is available at \url{https://github.com/Shark-NLP/DiffuSeq}

연구 동기 및 목표

  • Seq2Seq 과제에서 이산적이고 조건부 텍스트 생성을 위한 확산 모델을 동기 부여한다.
  • 외부 분류기 없이 소스 시퀀스에 조건을 두는 classifier-free 확산 모델을 개발한다.
  • 품질을 유지하면서 다양성을 높이기 위해 비자기회귀 병렬 디코딩을 가능하게 한다.
  • DiffuSeq와 AR/iter-NAR/Fully-NAR 모델 간의 이론적 연결고리를 확립한다.
  • 여러 Seq2Seq 작업에 걸친 실증적 효과를 입증한다.

제안 방법

  • 이산 텍스트 쌍(출처와 타깃)을 공유된 연속 공간에 임베딩하고, 타깃 부분만 섭동시키는 부분적 노이징 순방향 프로세스를 적용한다.
  • 보조 분류기 없이 pθ(z t−1|z t)를 학습하기 위해 Transformer 계열 네트워크로 역 노이즈 제거를 모델링한다(classifier-free).
  • 소스(wx)와 타깃(wy) 표현의 공동 학습을 위한 통합 Emb(wx ⊕ wy) 임베딩을 사용한다.
  • y0 재구성과 임베딩 일관성을 강조하는 단순화된 목적 함수를 사용하여 변분 하한 L_VLB를 도출하고 최소화한다.
  • 학습 안정화를 위해 확산 단계에 대한 중요도 샘플링을 적용하고 최종 품질 향상을 위해 MBR 디코딩을 활용한다.
  • 자기회귀, 반복-NAR 및 Fully-NAR 모델과의 연결을 확립하고 DiffuSeq가 반복-NAR를 확장한다고 주장한다.

실험 결과

연구 질문

  • RQ1확산 모델이 분류기 없이 조건부 Seq2Seq 텍스트 생성에 효과적으로 적용될 수 있을까?
  • RQ2부분적 노이징 순방향 프로세스가 조건부 생성 및 출처 wx와 타깃 wy 간 의존성 모델링에 어떤 영향을 미치는가?
  • RQ3DiffuSeq와 AR/iter-NAR/Fully-NAR 모델 간의 관계는 무엇이며, DiffuSeq가 품질과 다양성 측면에서 이점을 제공하는가?
  • RQ4wx와 wy를 위한 공유 임베딩의 공동 학습이 결합되지 않았거나 미리 추출된 표현과 비교하여 성능을 향상시키는가?
  • RQ5확산 기반 Seq2Seq 모델이 표준 Seq2Seq 작업에서 더 강한 다양성과 함께 경쟁력 있는 품질을 달성하는가?

주요 결과

작업방법BLEU ↑R-L ↑점수 ↑dist-1 ↑selfB ↓ / div-4 ↑길이
Open Domain DialogueGRU-attention ⋄0.00680.10540.41280.89980.8008/0.18244.46
Open Domain DialogueTransformer-base ⋄0.01890.10390.47810.74930.3698/0.647219.5
Open Domain DialogueGPT2-base FT ∙0.01080.15080.52790.91940.0182/0.991916.8
Open Domain DialogueGPT2-large FT ∙0.01250.10020.52930.92440.0213/0.993816.8
Open Domain DialogueGPVAE-T5 ∙0.01100.10090.43170.56250.3560/0.555120.1
Open Domain DialogueNAR-LevT ‡0.01580.05500.47600.97260.7103/0.14164.11
Open Domain DialogueDiffuSeq (Ours) ‡0.01390.10560.51310.94670.0144 / 0.997113.6
Question GenerationGRU-attention ⋄0.06510.26170.52220.79300.9999/0.317810.1
Question GenerationTransformer-base ⋄0.16630.34410.63070.93090.3265/0.772010.3
Question GenerationGPT2-base FT ∙0.07410.27140.60520.96020.1403 / 0.921610.0
Question GenerationGPT2-large FT ∙0.11100.32150.63460.96700.2910/0.80629.96
Question GenerationGPVAE-T5 ∙0.12510.33900.63080.93810.3567/0.728211.4
Question GenerationNAR-LevT ‡0.09300.28930.54910.89140.9830/0.47766.93
Question GenerationDiffuSeq (Ours) ‡0.17310.36650.61230.90560.2789 / 0.810311.5
Text SimplificationGRU-attention ⋄0.32560.56020.78710.88830.9998/0.331318.9
Text SimplificationTransformer-base ⋄0.26930.49070.73810.88860.6924/0.509518.5
Text SimplificationGPT2-base FT ∙0.30830.54610.80210.94390.5444/0.604716.1
Text SimplificationGPT2-large FT ∙0.26930.51110.78820.94640.6042/0.587615.4
Text SimplificationGPVAE-T5 ∙0.33920.58280.81660.93080.8147/0.435518.5
Text SimplificationNAR-LevT ‡0.20520.44020.72540.97150.9907/0.32718.31
Text SimplificationDiffuSeq (Ours) ‡0.36220.58490.81260.92640.4642 / 0.660417.7
ParaphraseGRU-attention ⋄0.18940.51290.77630.94230.9958/0.32878.30
ParaphraseTransformer-base ⋄0.27220.57480.83810.97480.4483/0.734511.2
ParaphraseGPT2-base FT ∙0.19800.52120.82460.97980.5480/0.62459.67
ParaphraseGPT2-large FT ∙0.20590.54150.83630.98190.7325/0.50209.53
ParaphraseGPVAE-T5 ∙0.24090.58860.84660.96880.5604/0.61699.60
ParaphraseNAR-LevT ‡0.22680.57950.83440.97900.9995/0.33298.85
ParaphraseDiffuSeq (Ours) ‡0.24130.58800.83650.98070.2732 / 0.864111.2
  • DiffuSeq는 네 가지 Seq2Seq 작업에서 6개의 강력한 베이스라인과 동등하거나 우수한 품질을 달성하며, 최첨단 PLM 기반 모델을 포함한다.
  • DiffuSeq는 일관되게 더 높은 다양성을 제공하며(self-BLEU 감소, div-4 증가) BLEU, ROUGE, BERTScore를 유지한다.
  • 모델은 문장 수준에서 강한 다양성을 보여주며 다양성이 활용될 때 자기회귀 베이스라인을 능가할 수 있다(예: MBR에서 더 큰 후보 집합 사용).
  • wx와 wy의 공유 임베딩의 공동 학습이 성능에 중요하며, 분리 학습 전략은 결과를 저하시킨다.
  • DiffuSeq는 자기회귀, 반복-NAR 및 확산 접근 방식 사이의 이론적 및 실증적 다리를 제공하여 확산을 조건부 언어 생성의 실현 가능한 확장으로 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.