Skip to main content
QUICK REVIEW

[논문 리뷰] Leveraging Monolingual Data with Self-Supervision for Multilingual Neural Machine Translation

Aditya Siddhant, Ankur Bapna|arXiv (Cornell University)|2020. 05. 11.
Natural Language Processing Techniques참고 문헌 24인용 수 35
한 줄 요약

본 논문은 단일언어 데이터와 자기지도 학습을 다국어 NMT에 결합하여 저자원 언어 번역 성능을 향상시키고, 병렬 데이터 없이도 보이지 않는 언어를 효과적으로 추가할 수 있게 한다.

ABSTRACT

Over the last few years two promising research directions in low-resource neural machine translation (NMT) have emerged. The first focuses on utilizing high-resource languages to improve the quality of low-resource languages via multilingual NMT. The second direction employs monolingual data with self-supervision to pre-train translation models, followed by fine-tuning on small amounts of supervised data. In this work, we join these two lines of research and demonstrate the efficacy of monolingual data with self-supervision in multilingual NMT. We offer three major results: (i) Using monolingual data significantly boosts the translation quality of low-resource languages in multilingual models. (ii) Self-supervision improves zero-shot translation quality in multilingual models. (iii) Leveraging monolingual data with self-supervision provides a viable path towards adding new languages to multilingual models, getting up to 33 BLEU on ro-en translation without any parallel data or back-translation.

연구 동기 및 목표

  • NMT를 위한 다국어 전이 학습과 자기지도 모노링구얼 사전 학습의 결합에 동기를 부여한다.
  • 다국어 설정에서 단일언어 데이터가 언어 간 번역 품질을 향상시킴을 입증한다.
  • 다국어 모델에서 자기지도는 제로샷 번역 품질을 향상시킨다는 것을 보여준다.
  • 오직 단일언어 데이터만으로 다국어 NMT에 새로운 언어를 추가하는 경로를 제시한다.
  • 여러 언어 방향에 걸친 WMT 데이터에 대한 실증적 증거를 제공한다.

제안 방법

  • 다국어 NMT에 맞게 조정된 MASS 기반 마스킹 시퀀스-투-시퀀스 사전학습을 사용한다.
  • 원하는 출력 언어를 표시하기 위해 소스 문장 앞에 대상 언어 토큰 <2xx>를 붙인다.
  • 번역 목적의 감독 병렬 데이터와 MASS 목표를 갖는 단일언어 데이터에 대해 공동 학습한다.
  • 자원 불균형을 해소하기 위해 온도 기반 샘플링으로 언어 데이터를 균형 있게 다룬다.
  • 두 소스가 모두 사용될 때 단일언어 자기지도와 병렬 데이터를 50/50 비율로 혼합한다.
  • 표준 WMT 검증/테스트 세트에서 SacreBLEU로 평가한다.

실험 결과

연구 질문

  • RQ1다국어 NMT 설정에서 자기지도 있는 단일언어 데이터를 포함하는 것이 저자원 언어의 번역 품질을 개선하는가?
  • RQ2다국어 모델에서 자기지도는 제로샷 번역 품질을 향상시키는가?
  • RQ3단일언어 데이터와 자기지도로 병렬 데이터 없이도 새로운 보이지 않는 언어를 다국어 모델에 추가하는 데 도움이 되는가?
  • RQ4이 방법은 양방향 기초 모델(바이링구얼 베이스라인) 및 피벗 기반 또는 다른 다국어 설정과 언어 방향에 따라 어떻게 비교되는가?

주요 결과

  • 다국어 NMT 내에서 단일언어 데이터를 추가하면 저자원 언어의 품질이 크게 향상된다.
  • 자기지도는 제로샷 번역 성능을 향상시켜 정렬이나 적대적 손실 없이 피벗 기반 방법에 근접하게 만든다.
  • 단일언어 데이터와 자기지도로 다국어 모델에 새로운 언어를 추가하는 것이 강한 번역 품질을 보이며, 종종 완전히 감독된 다국어 베이스라인에 근접하다.
  • 자원 풍부한 방향에서 단일언어 데이터를 포함한 다국어 모델은 양방향 베이스라인에 일치하거나 근접하게 된다(다소 예외 있음).
  • 특히 매우 저자원 언어의 경우 단일언어 데이터의 이점이 특히 크다(3–5 BLEU, 일부 방향에서 더 큼).
  • ro-en에서 단일언어 데이터를 가진 모델이 XLM을 능가하고 back-translation 없이 MASS 기반의 바이링구얼 성능과 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.