QUICK REVIEW

[논문 리뷰] DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders

Shuming Ma, Li Dong|arXiv (Cornell University)|2021. 06. 25.

Topic Modeling참고 문헌 31인용 수 51

한 줄 요약

ΔLM은 사전 학습된 다국어 인코더를 재사용해 인코더-디코더 모델의 인코더와 디코더를 모두 초기화하고, 단일언어 및 양언어 데이터에서 스팬 손상(span corruption)과 번역 스팬 손상(translation span corruption)으로 사전 학습시켜 다국어 생성 및 번역을 향상시킨다.

ABSTRACT

While pretrained encoders have achieved success in various natural language understanding (NLU) tasks, there is a gap between these pretrained encoders and natural language generation (NLG). NLG tasks are often based on the encoder-decoder framework, where the pretrained encoders can only benefit part of it. To reduce this gap, we introduce DeltaLM, a pretrained multilingual encoder-decoder model that regards the decoder as the task layer of off-the-shelf pretrained encoders. Specifically, we augment the pretrained multilingual encoder with a decoder and pre-train it in a self-supervised way. To take advantage of both the large-scale monolingual data and bilingual data, we adopt the span corruption and translation span corruption as the pre-training tasks. Experiments show that DeltaLM outperforms various strong baselines on both natural language generation and translation tasks, including machine translation, abstractive text summarization, data-to-text, and question generation. The code and pretrained models are available at \url{https://aka.ms/deltalm}.

연구 동기 및 목표

인코더-디코더 프레임워크에 의존하는 자연어 생성(NLG) 작업과 사전 학습된 인코더 간의 격차를 좁히려는 동기를 제시한다.
사전 학습된 다국어 인코더를 재사용하여 인코더-디코더 모델의 인코더와 디코더를 모두 초기화하는 방법을 제안한다.
특화된 사전 학습 과정을 통해 대규모 단일언어 및 이중언어 데이터를 활용하여 교차 언어 전이를 향상시킨다.
NLG, MT, 요약, 데이터-텍스트 변환 및 질문 생성에 걸친 다국어 생성 및 번역 벤치마크에서 효과를 입증한다.

제안 방법

강력한 다국어 인코더(InfoXLM)로부터 사전 학습된 다국어 인코더-디코더 모델의 인코더와 디코더를 모두 초기화한다.
디코더 구조를 인코더와 정렬하고 사전 학습 가중치를 완전히 재사용하도록 인터리브된 Transformer 디코더를 도입한다.
다국어 데이터에서 스팬 손상으로 사전 학습하여 교차 언어 전이 가능성을 보존한다.
이중언어 병렬 데이터를 사용한 번역-스팬 손상으로 교차 언어 전이를 강화한다.
360M 파라미터 기본 모델과 함께 6TB 다국어 코퍼스(100개 언어)와 88GB 이중언어 데이터(77개 언어)를 사용한다.
표준 최적화 및 평가 설정으로 다운스트림 작업에 미세 조정하고, 미세 조정 중에 혼합된 사전 학습 목표로 제로샷 전이 실험을 수행한다.

실험 결과

연구 질문

RQ1사전 학습된 다국어 인코더를 재사용하여 인코더-디코더 모델을 초기화하는 것이 NLG 및 번역 작업을 향상시킬 수 있는가?
RQ2인터리브된 디코더가 사전 학습된 인코더 가중치를 완전히 활용하여 더 나은 교차 언어 생성을 가능하게 하는가?
RQ3스팬 손상과 번역-스팬 손상 과제가 다국어 NLG 및 MT를 위해 단일언어 및 이중언어 데이터를 효과적으로 활용하는가?
RQ4강력한 baselines와 비교했을 때 다국어 생성, 교차 언어 생성 및 제로샷 전이에서 ΔLM의 성능은 어떠한가?

주요 결과

360M 파라미터의 ΔLM은 XQG-Zh 및 XGiga-Fr에서 BLEU, METEOR, ROUGE-L 기준으로 XLM과 XNLG를 능가한다.
ΔLM은 X→En 테스트 세트에서 다국어 NMT 기준 대비 평균 BLEU를 +2.7 만큼 향상시키고 En→X에서도 +1.3을 달성한다.
ΔLM은 파라미터 수가 적은 편인데도 10개 언어에서 X→En 및 En→X 방향으로 mBART와 M2M-100보다 우수하다.
교차언어 추상 요약 및 데이터-텍스트에서 ΔLM은 mBART 및 mT5와 같은 기준과 비슷하거나 이를 상회하며 파라미터 효율이 더 높다(360M 대 최대 3.7B의 일부 기준 대비).
XGiga의 제로샷 교차언어 전이에서 ΔLM은 프랑스어 및 중국어 테스트 세트에서 XLM, XLM+MT, XNLG를 크게 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.