[논문 리뷰] Multilingual Denoising Pre-training for Neural Machine Translation
논문은 mBART를 소개하는데, 다국어 시퀀스-투-시퀀스 denoising auto-encoder 프리-트레이닝을 25개 언어에서 수행하고, supervised와 unsupervised MT 모두에 대해 많은 언어 쌍에 대해 미세 조정이 가능하며, 특히 저자원/중저자원 설정에서 상당한 이득을 얻고 언어 간 전이도 가능하게 한다.
This paper demonstrates that multilingual denoising pre-training produces significant performance gains across a wide variety of machine translation (MT) tasks. We present mBART -- a sequence-to-sequence denoising auto-encoder pre-trained on large-scale monolingual corpora in many languages using the BART objective. mBART is one of the first methods for pre-training a complete sequence-to-sequence model by denoising full texts in multiple languages, while previous approaches have focused only on the encoder, decoder, or reconstructing parts of the text. Pre-training a complete model allows it to be directly fine tuned for supervised (both sentence-level and document-level) and unsupervised machine translation, with no task-specific modifications. We demonstrate that adding mBART initialization produces performance gains in all but the highest-resource settings, including up to 12 BLEU points for low resource MT and over 5 BLEU points for many document-level and unsupervised models. We also show it also enables new types of transfer to language pairs with no bi-text or that were not in the pre-training corpus, and present extensive analysis of which factors contribute the most to effective pre-training.
연구 동기 및 목표
- 다양한 언어 쌍에 대해 denoising 목적을 갖는 완전한 다국어 Seq2Seq 모델의 프리-트레이닝이 MT를 개선한다는 것을 동기 부여하고 증명한다.
- mBART 프리-트레이닝이 감독형 문장 수준 및 문서 수준 MT는 물론 비지도 MT에서도 상당한 이득을 낸다는 것을 보여준다.
- 언어 수, 언어 간 유사성, 프리-트레이닝 단계와 같은 요인이 이득에 어떤 영향을 미치는지 조사한다.
- 사전 학습 데이터에 나타나지 않는 언어 간의 전이나, bi-text가 없는 언어 쌍으로의 전달을 입증하여 프리-트레이딩 모델의 언어-보편적 이점을 나타낸다.
제안 방법
- 대규모 단일언어 코퍼스에서 25개 언어(CC25)에 걸친 BART 스타일의 denoising 목적을 사용하여 다국어 시퀀스-투-시퀀스 모델(mBART)을 프리-트레이닝 한다.
- 두 가지 노이즈 유형: span masking(단어의 35%)과 문장 순열, 디코딩을 안내하기 위한 language id 토큰을 사용한다.
- 멀티언어 데이터에서 단일 Transformer 기반 모델(12-layer encoder와 12-layer decoder, 모델 차원 1024, 약 680M 매개변수)을 256 V100 GPU로 500K 스텝 동안 학습한다.
- 감독 MT를 위한 양방향 데이터에 대해 프리-트레이닝된 모델을 미세 조정하고, 교사 강제와 표준 디코딩(빔 폭 5)을 사용한다.
- 문장 수준 MT, 문서 수준 MT, 비지도 MT 작업에서 평가하며, 백-번역 및 언어 전달 시나리오를 포함한다.
- 다른 프리-트레이닝 방법과 비교하여 전체 Seq2Seq 다국어 프리-트레이닝의 이점을 입증한다.
실험 결과
연구 질문
- RQ1denoising 목적을 사용해 프리-트레이닝된 완전한 다국어 Seq2Seq 모델이 저자원/중저자원/고자원 언어 쌍의 MT를 개선하는가?
- RQ2다국어 프리-트레이닝이 bi-text가 없는 언어 쌍과 프리-트레이닝 데이터에 없었던 언어로의 전달을 가능하게 하는가?
- RQ3프리-트레이닝 언어 수, 언어 간 유사성, 프리-트레이닝 단계와 같은 요인들이 MT 이득에 어떤 영향을 주는가?
- RQ4프리-트레이닝이 백-번역 및 문서 수준 MT 작업과 어떻게 상호 작용하는가?
- RQ5프리-트레이닝이 비지도 MT에 유익한가, 언어 전달 시나리오를 포함하여?
주요 결과
- mBART 프리-트레이닝은 저자원 및 중저자원 bi-text 쌍에서 이득을 주며, 최대 12 BLEU 포인트의 개선을 포함한다.
- 고자원 쌍의 경우 프리-트레이닝은 일관된 이득이 덜하고, 광범위한 bi-text가 있을 때 약간의 악영향을 줄 수 있다.
- 백-번역과 mBART 초기화를 결합하면 여러 방향에서 새로운 최첨단 결과를 달성한다(예: En–Si, En–Ne in FLoRes).
- mBART는 En–Ro 및 관련 방향에서 다른 프리-트레이닝 방법들(XLM, MASS, BART 변형 등)보다 우수하며, 특히 BT와 함께 우수한 성능을 보인다.
- 문서 수준 MT는 프리-트레이닝으로 인해 상당히 이득을 보며, 사전 학습된 Doc-MT가 Sent-MT를 능가하고, 프리-트레이닝이 비-프리-트레이닝 대조군을 크게 능가한다.
- 비지도 MT는 백-번역 및 언어 전달을 통해 mBART 프리-트레이닝의 이점을 얻으며, 이전 방법들이 어려움을 겪는 불일치한 쌍(예: En–Ne, En–Si)에서도 강한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.