QUICK REVIEW

[논문 리뷰] Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation

Aditya Siddhant, Ankur Bapna|arXiv (Cornell University)|2020. 05. 11.

Natural Language Processing Techniques참고 문헌 24인용 수 35

한 줄 요약

본 논문은 단일언어 데이터와 자기지도 학습을 다국어 NMT에 결합하여 저자원 언어 번역 성능을 향상시키고, 병렬 데이터 없이도 보이지 않는 언어를 효과적으로 추가할 수 있게 한다.

ABSTRACT

Over the last few years two promising research directions in low-resource neural machine translation (NMT) have emerged. The first focuses on utilizing high-resource languages to improve the quality of low-resource languages via multilingual NMT. The second direction employs monolingual data with self-supervision to pre-train translation models, followed by fine-tuning on small amounts of supervised data. In this work, we join these two lines of research and demonstrate the efficacy of monolingual data with self-supervision in multilingual NMT. We offer three major results: (i) Using monolingual data significantly boosts the translation quality of low-resource languages in multilingual models. (ii) Self-supervision improves zero-shot translation quality in multilingual models. (iii) Leveraging monolingual data with self-supervision provides a viable path towards adding new languages to multilingual models, getting up to 33 BLEU on ro-en translation without any parallel data or back-translation.

연구 동기 및 목표

NMT를 위한 다국어 전이 학습과 자기지도 모노링구얼 사전 학습의 결합에 동기를 부여한다.
다국어 설정에서 단일언어 데이터가 언어 간 번역 품질을 향상시킴을 입증한다.
다국어 모델에서 자기지도는 제로샷 번역 품질을 향상시킨다는 것을 보여준다.
오직 단일언어 데이터만으로 다국어 NMT에 새로운 언어를 추가하는 경로를 제시한다.
여러 언어 방향에 걸친 WMT 데이터에 대한 실증적 증거를 제공한다.

제안 방법

다국어 NMT에 맞게 조정된 MASS 기반 마스킹 시퀀스-투-시퀀스 사전학습을 사용한다.
원하는 출력 언어를 표시하기 위해 소스 문장 앞에 대상 언어 토큰 <2xx>를 붙인다.
번역 목적의 감독 병렬 데이터와 MASS 목표를 갖는 단일언어 데이터에 대해 공동 학습한다.
자원 불균형을 해소하기 위해 온도 기반 샘플링으로 언어 데이터를 균형 있게 다룬다.
두 소스가 모두 사용될 때 단일언어 자기지도와 병렬 데이터를 50/50 비율로 혼합한다.
표준 WMT 검증/테스트 세트에서 SacreBLEU로 평가한다.

실험 결과

연구 질문

RQ1다국어 NMT 설정에서 자기지도 있는 단일언어 데이터를 포함하는 것이 저자원 언어의 번역 품질을 개선하는가?
RQ2다국어 모델에서 자기지도는 제로샷 번역 품질을 향상시키는가?
RQ3단일언어 데이터와 자기지도로 병렬 데이터 없이도 새로운 보이지 않는 언어를 다국어 모델에 추가하는 데 도움이 되는가?
RQ4이 방법은 양방향 기초 모델(바이링구얼 베이스라인) 및 피벗 기반 또는 다른 다국어 설정과 언어 방향에 따라 어떻게 비교되는가?

주요 결과

다국어 NMT 내에서 단일언어 데이터를 추가하면 저자원 언어의 품질이 크게 향상된다.
자기지도는 제로샷 번역 성능을 향상시켜 정렬이나 적대적 손실 없이 피벗 기반 방법에 근접하게 만든다.
단일언어 데이터와 자기지도로 다국어 모델에 새로운 언어를 추가하는 것이 강한 번역 품질을 보이며, 종종 완전히 감독된 다국어 베이스라인에 근접하다.
자원 풍부한 방향에서 단일언어 데이터를 포함한 다국어 모델은 양방향 베이스라인에 일치하거나 근접하게 된다(다소 예외 있음).
특히 매우 저자원 언어의 경우 단일언어 데이터의 이점이 특히 크다(3–5 BLEU, 일부 방향에서 더 큼).
ro-en에서 단일언어 데이터를 가진 모델이 XLM을 능가하고 back-translation 없이 MASS 기반의 바이링구얼 성능과 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.