Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Machine Translation Using Monolingual Corpora Only

Guillaume Lample, Alexis Conneau|arXiv (Cornell University)|2017. 10. 31.
Natural Language Processing Techniques참고 문헌 36인용 수 198
한 줄 요약

본 논문은 두 언어를 공유 잠재 공간에서 정렬함으로써 오로지 단일 언어 데이터만 사용해 번역을 학습하는 비지도 신경 기계 번역 방식에 대해 다룬다. 이를 위해 노이즈 자동 인코딩, 교차 도메인 번역, 적대적 학습을 이용하며, 단어 수준의 비지도 사전에서 초기화된다.

ABSTRACT

Machine translation has recently achieved impressive performance thanks to recent advances in deep learning and the availability of large-scale parallel corpora. There have been numerous attempts to extend these successes to low-resource language pairs, yet requiring tens of thousands of parallel sentences. In this work, we take this research direction to the extreme and investigate whether it is possible to learn to translate even without any parallel data. We propose a model that takes sentences from monolingual corpora in two different languages and maps them into the same latent space. By learning to reconstruct in both languages from this shared feature space, the model effectively learns to translate without using any labeled data. We demonstrate our model on two widely used datasets and two language pairs, reporting BLEU scores of 32.8 and 15.1 on the Multi30k and WMT English-French datasets, without using even a single parallel sentence at training time.

연구 동기 및 목표

  • 제로-parallel-data 시나리오에서 번역의 동기 부여와 준-감독 방법의 강력한 하한 설정.
  • 두 언어를 공통 잠재 공간으로 매핑하는 엔드 투 엔드 비지도 MT 모델 개발.
  • 노이즈 제거 자동 인코딩, 교차 도메인 번역, 적대적 분포 정렬을 활용해 번역 학습.
  • 레이블이 없는 데이터를 통해 번역 품질을 개선하는 반복 학습 절차 제공.

제안 방법

  • 두 언어 모두에 대해 단일 인코더/디코더를 사용하되 언어별 조회 테이블을 둠.
  • 두 언어 모두에서 노이즈 제거 자동 인코딩 손실의 조합으로 학습.
  • 현재 모델을 이용해 언어를 가로질러 번역하고 원문을 재구성하는 교차 도메인 번역 목표를 도입.
  • 인코더에 의해 뇌를 속이는 판별기가 Encodings에서 언어를 예측하고 판별기를 속여 두 언어의 잠재 표현을 정렬하는 적대적 손실 사용.
  • 모노링구얼 데이터에서 학습된 비지도 단어-대-단어 번역 사전에서 초기화하고 역번역을 통해 반복적으로 개선.
  • 전체 목표를 자동 인코딩, 교차 도메인 및 적대적 손실의 가중합으로 최적화하고 판별기를 공동으로 업데이트.
  • 반복 학습(M^(t) -> M^(t+1))으로 점진적으로 번역 품질 향상.

실험 결과

연구 질문

  • RQ1두 언어의 단일 언어 코퍼스만으로 기계 번역을 학습할 수 있는가?
  • RQ2두 언어를 공통 잠재 공간으로 매핑하는 것이 효과적인 교차 언어 디코딩을 가능하게 하는가?
  • RQ3노이즈 제거, 교차 도메인 재구성, 그리고 적대적 정렬이 비지도 번역 품질에 얼마나 기여하는가?
  • RQ4반복 학습과 모노링구얼 자원에서 초기화가 BLEU 점수에 미치는 영향은 무엇인가?
  • RQ5병렬 데이터 없이 하이퍼파라미터를 어떻게 선택할 수 있는가?

주요 결과

데이터 세트언어 쌍모델/반복BLEU
Multi30k-Task1en-frOur model: 1st iteration27.48
Multi30k-Task1en-frOur model: 2nd iteration32.07
Multi30k-Task1en-frOur model: 3rd iteration32.76
Multi30k-Task1fr-enOur model: 1st iteration28.07
Multi30k-Task1fr-enOur model: 2nd iteration30.49
Multi30k-Task1fr-enOur model: 3rd iteration32.07
Multi30k-Task1de-enOur model: 1st iteration23.69
Multi30k-Task1de-enOur model: 2nd iteration24.73
Multi30k-Task1de-enOur model: 3rd iteration26.26
Multi30k-Task1en-deOur model: 1st iteration19.32
Multi30k-Task1en-deOur model: 2nd iteration21.16
Multi30k-Task1en-deOur model: 3rd iteration22.74
WMTen-frOur model: 1st iteration12.10
WMTen-frOur model: 2nd iteration13.49
WMTen-frOur model: 3rd iteration15.05
WMTfr-enOur model: 1st iteration11.79
WMTfr-enOur model: 2nd iteration14.31
WMTfr-enOur model: 3rd iteration14.31
WMTde-enOur model: 1st iteration9.75
WMTde-enOur model: 2nd iteration9.75
WMTde-enOur model: 3rd iteration13.33
WMTen-deOur model: 1st iteration9.64
WMTen-deOur model: 2nd iteration9.64
WMTen-deOur model: 3rd iteration9.64
  • Multi30k-Task1 English-French에서 BLEU가 27.48(1번째 반복)에서 32.76(3번째 반복)로 향상.
  • Multi30k-Task1 English-German에서 BLEU가 23.69(1번째 반복)에서 26.26(3번째 반복)로 향상.
  • WMT English-French에서 BLEU가 12.10(1번째 반복)에서 15.05(3번째 반복)로 향상.
  • WMT French-English에서 BLEU가 11.79(1번째 반복)에서 14.31(3번째 반복)로 향상.
  • 두 언어의 모노링구얼 데이터를 활용한 비지도 모델은 WMT en-fr 쌍의 약 10만 개의 병렬 문장으로 학습된 감독 MT 시스템에 비견할 만한 성능을 달성.
  • 판별기 기반 적대적 정렬과 자동 인코딩 및 교차 도메인 손실의 조합이 성능에 결정적이며, 제거 실험에서 확인됨.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.