Skip to main content
QUICK REVIEW

[논문 리뷰] Pre-training Multilingual Neural Machine Translation by Leveraging Alignment Information

Zehui Lin, Xiao Pan|arXiv (Cornell University)|2020. 10. 07.
Natural Language Processing Techniques참고 문헌 21인용 수 46
한 줄 요약

본 논문은 Cross-language representations를 정렬하기 위해 Random Aligned Substitution를 사용하는 범용 다국어 NMT 사전 학습 방법인 mRASP를 제시한다. 이 방법은 42 개 방향과 다운스트림 쌍에 대해 미세 조정했을 때 이국적 번역에서 강력한 성능 향상을 달성한다.

ABSTRACT

We investigate the following question for machine translation (MT): can we develop a single universal MT model to serve as the common seed and obtain derivative and improved models on arbitrary language pairs? We propose mRASP, an approach to pre-train a universal multilingual neural machine translation model. Our key idea in mRASP is its novel technique of random aligned substitution, which brings words and phrases with similar meanings across multiple languages closer in the representation space. We pre-train a mRASP model on 32 language pairs jointly with only public datasets. The model is then fine-tuned on downstream language pairs to obtain specialized MT models. We carry out extensive experiments on 42 translation directions across a diverse settings, including low, medium, rich resource, and as well as transferring to exotic language pairs. Experimental results demonstrate that mRASP achieves significant performance improvement compared to directly training on those target pairs. It is the first time to verify that multiple low-resource language pairs can be utilized to improve rich resource MT. Surprisingly, mRASP is even able to improve the translation quality on exotic languages that never occur in the pre-training corpus. Code, data, and pre-trained models are available at https://github.com/linzehui/mRASP.

연구 동기 및 목표

  • 단일의 보편적 프리트레이닝 MT 시드를 개발하여 모든 언어 쌍에 미세 조정해 사용할 수 있게 한다.
  • 다국어 표현 정렬을 통해 기존 MT 프리트레이닝 목표의 한계를 해결한다.
  • 정렬 정보를 활용해 언어 간 의미적 격차를 좁힌다.
  • 극히 낮은 자원에서부터 풍부한 자원에 이르는 설정 및 이국적 번역 시나리오에서도 성능 향상을 입증한다.
  • 재현성과 재사용성을 위해 코드, 데이터, 사전 학습 모델의 오픈 액세스를 제공한다.

제안 방법

  • Transformer 기반 아키텍처를 사용한다(6-layer 인코더와 6-layer 디코더, 모델 차원 1,024, 어텐션 헤드 16, GeLU 활성화, 학습된 위치 임베딩).
  • 영어를 기준 언어(anchor language)로 사용하는 PC32 병렬 말뭉치(197M 문장 쌍)로 32개 언어 쌍에 대해 프리트레이닝한다.
  • Random Aligned Substitution(RAS)을 도입한다: 다른 언어에서 정렬된 번역으로 원문 단어를 무작위로 대체하여 코드 스위치 예제를 만들어 다국어 의미 공간을 공유하게 한다.
  • 모든 언어 쌍에 대해 표준 번역 손실과 원천/타깃 언어를 나타내는 언어 토큰을 사용하는 트레이닝을 수행한다.
  • 프리 트레이닝과 다운스트림 파인튜닝에서 동일한 아키텍처와 학습 목표를 유지하여 효과적 전달과 정렬을 가능하게 한다.
  • 다운스트림 언어 쌍에 대해 프리트레이닝된 모델을 파인튜닝하고, 필요 시 백트랜스레이션과 결합해 성능을 추가로 높일 수 있다.
  • 언어 간 표현을 균형 있게 다루기 위해 공용 BPE(32k 병합)로 어휘를 균형 있게 만들고, 언어를 과샘플링하여 표현을 동등하게 한다.

실험 결과

연구 질문

  • RQ1단일의 보편 다국어 프리트레이닝 MT 모델이 미세 조정 후 임의의 언어 쌍에 대해 효과적인 시드 역할을 할 수 있는가?
  • RQ2Random Aligned Substitution(RAS)이 언어 간 의미 표현을 효과적으로 다리 역할을 하여 번역 품질을 향상시키는가?
  • RQ3mRASP가 극히 낮은, 낮은, 중간, 풍부 자원 설정 및 이국적 번역 시나리오에서 어떤 성능을 보이는가?
  • RQ4사전 학습과 파인 튜닝의 상대적 기여도는 최종 MT 성능에서 어느 정도인가?
  • RQ5mRASP가 프리트레이닝에 등장하지 않는 이국적 언어 쌍의 경우에도 유익한가?

주요 결과

  • mRASP는 극히 낮은 자원에서부터 풍부한 자원 설정까지, 이국적 번역에 대해서도 직접 학습된 양언어 모델에 비해 상당한 개선을 제공합니다.
  • 극도로 낮은 자원에서 최대 +22 BLEU 포인트의 이득이 나타나며(예: <100k 데이터); 중간 및 풍부 자원 설정에서도 큰 이득이 관측됩니다(예: En–Fr, En–Zh).
  • 정렬 인식 프리트레이닝(RAS)은 다국어 의미 공간을 연결하고 교차 언어 어휘 유사성을 증가시키며 번역 품질을 향상시킵니다.
  • RAS를 포함한 프리트레이닝 뒤 파인튜닝은 NA-mRASP(ROS 없이) 및 직접 학습을 consistently 능가하며, 백트랜스레이션은 추가로 약 2 BLEU 포인트의 상승을 제공할 수 있습니다.
  • mBART 및 XLM과 같은 다른 프리트레이닝 모델과 비교하여도 mRASP는 여러 언어 쌍에서 경쟁적이거나 우수한 성능을 보이며, 이국적 언어가 개입될 때에도 효과적입니다.
  • 이국적 번역 실험에서 mRASP는 네 가지 범주(이국적 쌍, 이국적 전체, 이국적 출처, 이국적 대상)에서 이익을 보이며, 어느 쪽 언어도 프리트레이닝에 나타나지 않아도 큰 이득을 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.