QUICK REVIEW

[논문 리뷰] Universal Neural Machine Translation for Extremely Low Resource Languages

Jiatao Gu, Hany Hassan|arXiv (Cornell University)|2018. 02. 15.

Natural Language Processing Techniques참고 문헌 24인용 수 47

한 줄 요약

본 논문은 Universal Lexical Representation (ULR)와 Mixture of Language Experts (MoLE)를 도입하여 다중 언어 간 전이 학습을 가능하게 하고, 매우 자원이 적은 언어 쌍에서 작은 병렬 말뭉치와 제로샷 전이를 사용하여 강한 BLEU 향상을 달성한다.

ABSTRACT

In this paper, we propose a new universal machine translation approach focusing on languages with a limited amount of parallel data. Our proposed approach utilizes a transfer-learning approach to share lexical and sentence level representations across multiple source languages into one target language. The lexical part is shared through a Universal Lexical Representation to support multilingual word-level sharing. The sentence-level sharing is represented by a model of experts from all source languages that share the source encoders with all other languages. This enables the low-resource language to utilize the lexical and sentence representations of the higher resource languages. Our approach is able to achieve 23 BLEU on Romanian-English WMT2016 using a tiny parallel corpus of 6k sentences, compared to the 18 BLEU of strong baseline system which uses multilingual training and back-translation. Furthermore, we show that the proposed approach can achieve almost 20 BLEU on the same dataset through fine-tuning a pre-trained multi-lingual system in a zero-shot setting.

연구 동기 및 목표

병렬 데이터가 거의 없는 언어의 번역 문제를 동기 부여하고 해결한다.
저자원 번역을 향상시키기 위한 언어 간 어휘 및 문장 수준의 공유를 개발한다.
거의 제로 자원에 가까운 언어 쌍에서 보편적 NMT 프레임워크를 평가하고 다국어 베이스라인과 비교한다.
초저자원 환경에서 역번역(back-translation)과 미세조정의 이점을 보여준다.

제안 방법

학습 가능 임베딩 행렬 E^U와 언어별 임베딩을 보편 토큰으로 정렬하는 투사(projection)를 사용하여 모든 언어의 단어를 공유된 보편 토큰 공간에 매핑하는 Universal Lexical Representation (ULR)을 도입한다.
주로 영어인 이산적 보편 토큰 공간을 정의하고 공유 변환 A를 학습하여 소스 단어 x를 보편 토큰으로 분배하기 위한 q(u|x)를 계산한다.
자주 등장하는 단어에 대해 언어별 임베딩과 보편 토큰 혼합 간 학습된 보간(alpha/beta 체계)을 사용한다.
인코더 뒤에 하나의 보조 언어당 하나의 전문가를 두고 게이팅 네트워크로 전문가를 선택하도록 문장 수준 변동을 모델링하는 Mixture of Language Experts (MoLE)를 제안하며, 언어 게이팅 목적어로 학습한다.
다국어 NMT 프레임워크 내에서 고자원 언어를 보조로 활용하여 극히 저자원 쌍을 지원하고, 필요에 따라 역번역(BT)과 아주 작은 데이터 세트에서의 미세조정을 적용한다.

실험 결과

연구 질문

RQ1병렬 데이터가 희박한 언어 간에 보편적 어휘 표현이 효과적인 공유를 가능하게 할 수 있는가?
RQ2언어 전문가의 혼합(MoLE)이 저자원 언어의 문장 수준 공유 및 번역 품질을 향상시키는가?
RQ3ULR과 MoLE가 역번역 및 미세조정과 어떻게 상호작용하여 고자원 데이터와의 간극을 줄이는가?
RQ4보조 언어 및 어족 계통의 관련성이 제로 자원 번역 성능에 미치는 영향은 무엇인가?
RQ5사전 학습된 다국어 모델의 미세조정이 초저자원 언어 쌍에서 상당한 이득을 낼 수 있는가?

주요 결과

ULR with MoLE yields additive improvements over multilingual NMT baselines across Ro-En, Lv-En, and Ko-En where parallel data is extremely limited.
Ro-En에서 6k 병렬 문장일 때, ULR + MoLE 및 BT는 베이스라인 대비 최대 7.98의 BLEU 향상, BT를 적용하면 최대 22.92에 이르고, 전체 데이터(NMT)에서는 28.34이다.
ULR은 미지의 단어를 보편 토큰 공간으로 투사하여 알 수 없는 토큰 처리 능력을 향상시키고 제로 자원 설정에서 어휘 격차를 완화한다.
MoLE 활성은 언어 간 친연성을 반영한다; Ro은 로망스 계열 언어를 활용하고 Lv는 러시아어에서 이익을 보이며, MoLE는 맥락에 따라 적절한 전문가를 선택하는 경향이 있다.
초저자원 데이터로 사전학습 다국어 모델을 미세조정하면 상당한 BLEU 이득을 얻을 수 있으며, Ro-En의 경우 몇 에폭 후 약 20 BLEU에 근접하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.