Skip to main content
QUICK REVIEW

[논문 리뷰] Universal Neural Machine Translation for Extremely Low Resource Languages

Jiatao Gu, Hany Hassan|arXiv (Cornell University)|2018. 02. 15.
Natural Language Processing Techniques참고 문헌 24인용 수 47
한 줄 요약

본 논문은 Universal Lexical Representation (ULR)와 Mixture of Language Experts (MoLE)를 도입하여 다중 언어 간 전이 학습을 가능하게 하고, 매우 자원이 적은 언어 쌍에서 작은 병렬 말뭉치와 제로샷 전이를 사용하여 강한 BLEU 향상을 달성한다.

ABSTRACT

In this paper, we propose a new universal machine translation approach focusing on languages with a limited amount of parallel data. Our proposed approach utilizes a transfer-learning approach to share lexical and sentence level representations across multiple source languages into one target language. The lexical part is shared through a Universal Lexical Representation to support multilingual word-level sharing. The sentence-level sharing is represented by a model of experts from all source languages that share the source encoders with all other languages. This enables the low-resource language to utilize the lexical and sentence representations of the higher resource languages. Our approach is able to achieve 23 BLEU on Romanian-English WMT2016 using a tiny parallel corpus of 6k sentences, compared to the 18 BLEU of strong baseline system which uses multilingual training and back-translation. Furthermore, we show that the proposed approach can achieve almost 20 BLEU on the same dataset through fine-tuning a pre-trained multi-lingual system in a zero-shot setting.

연구 동기 및 목표

  • 병렬 데이터가 거의 없는 언어의 번역 문제를 동기 부여하고 해결한다.
  • 저자원 번역을 향상시키기 위한 언어 간 어휘 및 문장 수준의 공유를 개발한다.
  • 거의 제로 자원에 가까운 언어 쌍에서 보편적 NMT 프레임워크를 평가하고 다국어 베이스라인과 비교한다.
  • 초저자원 환경에서 역번역(back-translation)과 미세조정의 이점을 보여준다.

제안 방법

  • 학습 가능 임베딩 행렬 E^U와 언어별 임베딩을 보편 토큰으로 정렬하는 투사(projection)를 사용하여 모든 언어의 단어를 공유된 보편 토큰 공간에 매핑하는 Universal Lexical Representation (ULR)을 도입한다.
  • 주로 영어인 이산적 보편 토큰 공간을 정의하고 공유 변환 A를 학습하여 소스 단어 x를 보편 토큰으로 분배하기 위한 q(u|x)를 계산한다.
  • 자주 등장하는 단어에 대해 언어별 임베딩과 보편 토큰 혼합 간 학습된 보간(alpha/beta 체계)을 사용한다.
  • 인코더 뒤에 하나의 보조 언어당 하나의 전문가를 두고 게이팅 네트워크로 전문가를 선택하도록 문장 수준 변동을 모델링하는 Mixture of Language Experts (MoLE)를 제안하며, 언어 게이팅 목적어로 학습한다.
  • 다국어 NMT 프레임워크 내에서 고자원 언어를 보조로 활용하여 극히 저자원 쌍을 지원하고, 필요에 따라 역번역(BT)과 아주 작은 데이터 세트에서의 미세조정을 적용한다.

실험 결과

연구 질문

  • RQ1병렬 데이터가 희박한 언어 간에 보편적 어휘 표현이 효과적인 공유를 가능하게 할 수 있는가?
  • RQ2언어 전문가의 혼합(MoLE)이 저자원 언어의 문장 수준 공유 및 번역 품질을 향상시키는가?
  • RQ3ULR과 MoLE가 역번역 및 미세조정과 어떻게 상호작용하여 고자원 데이터와의 간극을 줄이는가?
  • RQ4보조 언어 및 어족 계통의 관련성이 제로 자원 번역 성능에 미치는 영향은 무엇인가?
  • RQ5사전 학습된 다국어 모델의 미세조정이 초저자원 언어 쌍에서 상당한 이득을 낼 수 있는가?

주요 결과

  • ULR with MoLE yields additive improvements over multilingual NMT baselines across Ro-En, Lv-En, and Ko-En where parallel data is extremely limited.
  • Ro-En에서 6k 병렬 문장일 때, ULR + MoLE 및 BT는 베이스라인 대비 최대 7.98의 BLEU 향상, BT를 적용하면 최대 22.92에 이르고, 전체 데이터(NMT)에서는 28.34이다.
  • ULR은 미지의 단어를 보편 토큰 공간으로 투사하여 알 수 없는 토큰 처리 능력을 향상시키고 제로 자원 설정에서 어휘 격차를 완화한다.
  • MoLE 활성은 언어 간 친연성을 반영한다; Ro은 로망스 계열 언어를 활용하고 Lv는 러시아어에서 이익을 보이며, MoLE는 맥락에 따라 적절한 전문가를 선택하는 경향이 있다.
  • 초저자원 데이터로 사전학습 다국어 모델을 미세조정하면 상당한 BLEU 이득을 얻을 수 있으며, Ro-En의 경우 몇 에폭 후 약 20 BLEU에 근접하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.