Skip to main content
QUICK REVIEW

[논문 리뷰] Cross-lingual Language Model Pretraining

Guillaume Lample, Alexis Conneau|arXiv (Cornell University)|2019. 01. 22.
Topic Modeling참고 문헌 35인용 수 1,617
한 줄 요약

이 논문은 감독되지 않은(CL M/MLM) 및 지도 학습(TLM) 사전학습을 통해 다국어 표현을 학습하는 교차 언어(Language) 모델(XLM)을 소개하며, 교차 언어 분류 및 비지도/지도 기계 번역에서 최신 성능을 달성한다.

ABSTRACT

Recent studies have demonstrated the efficiency of generative pretraining for English natural language understanding. In this work, we extend this approach to multiple languages and show the effectiveness of cross-lingual pretraining. We propose two methods to learn cross-lingual language models (XLMs): one unsupervised that only relies on monolingual data, and one supervised that leverages parallel data with a new cross-lingual language model objective. We obtain state-of-the-art results on cross-lingual classification, unsupervised and supervised machine translation. On XNLI, our approach pushes the state of the art by an absolute gain of 4.9% accuracy. On unsupervised machine translation, we obtain 34.3 BLEU on WMT'16 German-English, improving the previous state of the art by more than 9 BLEU. On supervised machine translation, we obtain a new state of the art of 38.5 BLEU on WMT'16 Romanian-English, outperforming the previous best approach by more than 4 BLEU. Our code and pretrained models will be made publicly available.

연구 동기 및 목표

  • 교차 언어 사전학습이 다국어 문장 표현을 향상시킨다는 것을 보여준다.
  • 다언어 데이터에 대해 비지도 교차 언어 목표(CL M, MLM)를 제안한다.
  • 병렬 데이터를 활용한 지도 교차 언어 목표(TLM)를 도입한다.
  • XNLI, 비지도 MT, 지도 MT에서 최신 성능을 보여준다.
  • 저자원 언어 및 교차 언어 임베딩에 대한 이점을 강조한다.

제안 방법

  • 바이트 페어 인코딩으로 학습된 공유 하위단어 어휘를 N개 언어에 대해 사용한다.
  • 모노링구얼 데이터에서 CLM으로 트랜스포머 언어 모델을 학습하여 이전 맥락으로부터 단어를 예측한다.
  • 배치당 여러 문장을 스트리밍하면서 맥락으로부터 15%의 토큰을 마스킹하고 예측하도록 MLM을 학습한다.
  • 번역 언어 모델링(TLM)을 도입하여 병렬 문장을 연결하고 토큰을 마스킹하여 모델이 소스와 타깃 맥락 모두에 주의를 기울여 표현을 정렬하게 한다.
  • 전이된 XLM을 교차 언어 분류 작업에 미세조정하여 첫 번째 은닉 상태에 선형 분류기를 추가하고 영어 NLI 데이터로 학습하는 한편 15개 언어에서 평가한다.
  • 다양한 사전학습 스킴(EMB, CLM, MLM)으로 인코더/디코더를 초기화하고 잡음 제거 자동인코딩 및 역번역으로 학습하여 비지도 MT를 평가한다.
  • CLM/MLM으로 사전학습하고 WMT’16 루마니아어-영어 데이터로 학습하여 지도 MT를 평가한다.
  • 연관된 언어 데이터를 혼합할 때 저자원 언어 모델링의 perplexity가 개선됨을 보여준다.

실험 결과

연구 질문

  • RQ1비지도 교차 언어 목표(CL M, MLM)가 병렬 데이터 없이도 이전 가능한 다국어 표현을 생성할 수 있는가?
  • RQ2병렬 데이터를 활용하는 지도 교차 언어 목표(TLM)를 도입하면 교차 언어 전이가 향상되는가?
  • RQ3XLM 사전학습 방법이 교차 언어 분류(XNLI) 및 기계 번역(비지도 및 지도)에 어떤 영향을 미치는가?
  • RQ4교차 언어 사전학습이 저자원 언어 및 교차 언어 단어 임베딩에 어떤 영향을 미치는가?

주요 결과

  • 비지도 MLM 및 MLM+CLM 기준선은 강력한 교차 언어 분류 성능을 달성하고, MLM+TLM은 상당한 부스트를 제공한다.
  • XNLI에서 MLM+TLM은 최첨단 평균 정확도 개선을 달성하며(영역 바닥 대비 최대 4.9% 절대 증가, 제로샷 분류에서 이전 ARTETXE/SOTA 대비 상승).
  • 비지도 MT는 MLM 사전학습의 혜택을 크게 받아 WMT’16 독일어-영어에서 BLEU 34.3에 도달(이전 SOTA 대비 >9 BLEU 초과 향상).
  • 지도 MT는 사전학습의 혜택을 받아 루마니아어-영어에서 38.5 BLEU를 달성, 이전 SOTA를 >4 BLEU 초과로 상회.
  • 교차 언어 사전학습은 힌디어/영어 데이터를 활용할 때 네팔어 perplexity를 개선한다(예: Nepali+Hindi 115.6 vs 157.2).
  • XLM 임베딩은 교차 언어 단어 유사도 메트릭(SemEval’17)에서 MUSE 및 Concat보다 우수하고, 더 가까운 단어 번역 쌍을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.