Skip to main content
QUICK REVIEW

[논문 리뷰] DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders

Shuming Ma, Li Dong|arXiv (Cornell University)|2021. 06. 25.
Topic Modeling참고 문헌 31인용 수 51
한 줄 요약

ΔLM은 사전 학습된 다국어 인코더를 재사용해 인코더-디코더 모델의 인코더와 디코더를 모두 초기화하고, 단일언어 및 양언어 데이터에서 스팬 손상(span corruption)과 번역 스팬 손상(translation span corruption)으로 사전 학습시켜 다국어 생성 및 번역을 향상시킨다.

ABSTRACT

While pretrained encoders have achieved success in various natural language understanding (NLU) tasks, there is a gap between these pretrained encoders and natural language generation (NLG). NLG tasks are often based on the encoder-decoder framework, where the pretrained encoders can only benefit part of it. To reduce this gap, we introduce DeltaLM, a pretrained multilingual encoder-decoder model that regards the decoder as the task layer of off-the-shelf pretrained encoders. Specifically, we augment the pretrained multilingual encoder with a decoder and pre-train it in a self-supervised way. To take advantage of both the large-scale monolingual data and bilingual data, we adopt the span corruption and translation span corruption as the pre-training tasks. Experiments show that DeltaLM outperforms various strong baselines on both natural language generation and translation tasks, including machine translation, abstractive text summarization, data-to-text, and question generation. The code and pretrained models are available at \url{https://aka.ms/deltalm}.

연구 동기 및 목표

  • 인코더-디코더 프레임워크에 의존하는 자연어 생성(NLG) 작업과 사전 학습된 인코더 간의 격차를 좁히려는 동기를 제시한다.
  • 사전 학습된 다국어 인코더를 재사용하여 인코더-디코더 모델의 인코더와 디코더를 모두 초기화하는 방법을 제안한다.
  • 특화된 사전 학습 과정을 통해 대규모 단일언어 및 이중언어 데이터를 활용하여 교차 언어 전이를 향상시킨다.
  • NLG, MT, 요약, 데이터-텍스트 변환 및 질문 생성에 걸친 다국어 생성 및 번역 벤치마크에서 효과를 입증한다.

제안 방법

  • 강력한 다국어 인코더(InfoXLM)로부터 사전 학습된 다국어 인코더-디코더 모델의 인코더와 디코더를 모두 초기화한다.
  • 디코더 구조를 인코더와 정렬하고 사전 학습 가중치를 완전히 재사용하도록 인터리브된 Transformer 디코더를 도입한다.
  • 다국어 데이터에서 스팬 손상으로 사전 학습하여 교차 언어 전이 가능성을 보존한다.
  • 이중언어 병렬 데이터를 사용한 번역-스팬 손상으로 교차 언어 전이를 강화한다.
  • 360M 파라미터 기본 모델과 함께 6TB 다국어 코퍼스(100개 언어)와 88GB 이중언어 데이터(77개 언어)를 사용한다.
  • 표준 최적화 및 평가 설정으로 다운스트림 작업에 미세 조정하고, 미세 조정 중에 혼합된 사전 학습 목표로 제로샷 전이 실험을 수행한다.

실험 결과

연구 질문

  • RQ1사전 학습된 다국어 인코더를 재사용하여 인코더-디코더 모델을 초기화하는 것이 NLG 및 번역 작업을 향상시킬 수 있는가?
  • RQ2인터리브된 디코더가 사전 학습된 인코더 가중치를 완전히 활용하여 더 나은 교차 언어 생성을 가능하게 하는가?
  • RQ3스팬 손상과 번역-스팬 손상 과제가 다국어 NLG 및 MT를 위해 단일언어 및 이중언어 데이터를 효과적으로 활용하는가?
  • RQ4강력한 baselines와 비교했을 때 다국어 생성, 교차 언어 생성 및 제로샷 전이에서 ΔLM의 성능은 어떠한가?

주요 결과

  • 360M 파라미터의 ΔLM은 XQG-Zh 및 XGiga-Fr에서 BLEU, METEOR, ROUGE-L 기준으로 XLM과 XNLG를 능가한다.
  • ΔLM은 X→En 테스트 세트에서 다국어 NMT 기준 대비 평균 BLEU를 +2.7 만큼 향상시키고 En→X에서도 +1.3을 달성한다.
  • ΔLM은 파라미터 수가 적은 편인데도 10개 언어에서 X→En 및 En→X 방향으로 mBART와 M2M-100보다 우수하다.
  • 교차언어 추상 요약 및 데이터-텍스트에서 ΔLM은 mBART 및 mT5와 같은 기준과 비슷하거나 이를 상회하며 파라미터 효율이 더 높다(360M 대 최대 3.7B의 일부 기준 대비).
  • XGiga의 제로샷 교차언어 전이에서 ΔLM은 프랑스어 및 중국어 테스트 세트에서 XLM, XLM+MT, XNLG를 크게 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.