QUICK REVIEW

[논문 리뷰] Unsupervised Neural Machine Translation

Mikel Artetxe, Gorka Labaka|arXiv (Cornell University)|2017. 10. 30.

Natural Language Processing Techniques참고 문헌 28인용 수 95

한 줄 요약

이 논문은 고정된 교차 언어 임베딩이 있는 공유 인코더, denoising, 그리고 on-the-fly backtranslation을 사용하여 병렬 데이터 없이 NMT 시스템을 학습하고, WMT 2014 프랑스-영어 및 독일-영어 과제에서 주목할 만한 BLEU 점수를 달성합니다.

ABSTRACT

In spite of the recent success of neural machine translation (NMT) in standard benchmarks, the lack of large parallel corpora poses a major practical problem for many language pairs. There have been several proposals to alleviate this issue with, for instance, triangulation and semi-supervised learning techniques, but they still require a strong cross-lingual signal. In this work, we completely remove the need of parallel data and propose a novel method to train an NMT system in a completely unsupervised manner, relying on nothing but monolingual corpora. Our model builds upon the recent work on unsupervised embedding mappings, and consists of a slightly modified attentional encoder-decoder model that can be trained on monolingual corpora alone using a combination of denoising and backtranslation. Despite the simplicity of the approach, our system obtains 15.56 and 10.21 BLEU points in WMT 2014 French-to-English and German-to-English translation. The model can also profit from small parallel corpora, and attains 21.81 and 15.24 points when combined with 100,000 parallel sentences, respectively. Our implementation is released as an open source project.

연구 동기 및 목표

병렬 데이터가 거의 없거나 아예 없는 상황에서 실용적인 NMT를 위한 자원 언어 쌍의 동기 부여.
단일 언어 코퍼스만을 활용하는 비지도 NMT 모델 제안.
잡음 제거와 역번역이 병렬 데이터 없이 학습을 가능하게 함을 보여준다.

제안 방법

단일 공유 인코더를 갖는 이중 언어 시스템을 사용한다.
인코더에서 교차-언어 임베딩을 고정하여 언어 독립적 표현을 얻는다.
잡음이 있는 입력의 잡음 제거를 통해 언어 간 구성 구조를 학습한다.
학습 중에 실시간으로 역번역을 도입하여 의사 병렬 데이터를 생성한다.
소량의 병렬 코퍼스와 결합하여 준감독 학습 설정으로 구성할 수 있다.
GRU 유닛과 300-d 임베딩을 사용한 표준 어텐션 기반 인코더-디코더; 교차 엔트로피 손실과 Adam 옵티마이저로 학습한다.

실험 결과

연구 질문

RQ1병렬 코퍼스 없이도 단일 언어 데이터만으로 NMT 시스템을 효과적으로 학습시킬 수 있는가?
RQ2잡음 제거와 역번역이 비지도 설정에서 교차 언어 번역 품질에 어떻게 기여하는가?
RQ3고정된 교차 언어 임베딩과 공유 인코더가 언어 간의 진정한 번역 관계를 학습하도록 얼마나 큰 도움을 주는가?

주요 결과

	FR-EN	EN-FR	DE-EN	EN-DE
1. Baseline (emb. nearest neighbor)	9.98	6.25	7.07	4.39
2. Proposed (denoising)	7.28	5.33	3.64	2.40
3. Proposed (+ backtranslation)	15.56	15.13	10.21	6.55
4. Proposed (+ BPE)	15.56	14.36	10.16	6.89
5. Semi- Proposed (10k parallel)	18.57	17.34	11.47	7.86
6. Semi- Proposed (100k parallel)	21.81	21.74	15.24	10.95
7. Comparable NMT (10k parallel)	1.88	1.66	1.33	0.82
8. Comparable NMT (100k parallel)	10.40	9.19	8.11	5.29
9. Comparable NMT (full parallel)	20.48	19.89	15.04	11.05
10. GNMT (Wu et al., 2016)	-	38.95	-	24.61

비지도 프랑스-영어 및 독일-영어 번역에서 FR→EN 15.56 BLEU, DE→EN 10.21 BLEU를 달성.
100k 병렬 문장과 결합하면 FR→EN 21.81 BLEU, DE→EN 15.24 BLEU.
역번역은 잡음 제거만으로의 성능보다 현저히 향상시켜, 그 중요한 역할을 시사한다.
서브워드 단위(BPE)는 방향에 따라 미미한 이점을 제공한다.
작은 병렬 데이터로의 준감독 학습은 완전한 비지도 학습보다 더 큰 개선을 얻는다.
이 방법은 낱말 대 낱말 치환을 넘어서는 비자명한 번역 관계를 학습한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.