QUICK REVIEW

[논문 리뷰] Investigating Backtranslation in Neural Machine Translation

Alberto Poncelas, Dimitar Shterionov|arXiv (Cornell University)|2018. 04. 17.

Natural Language Processing Techniques참고 문헌 23인용 수 88

한 줄 요약

이 논문은 역번역(back-translated, 합성) 데이터가 순수하게 또는 실제 데이터와 함께 사용될 때 독일어→영어 NMT 성능에 미치는 영향을 체계적으로 평가합니다. 합성 데이터는 실제 데이터의 품질에 근접할 수 있으며, 하이브리드 데이터가 종종 최상의 결과를 낳고, 너무 많은 합성 데이터가 성능을 저하시킬 수 있는 트리거 포인트가 존재한다는 것을 발견했습니다.

ABSTRACT

A prerequisite for training corpus-based machine translation (MT) systems -- either Statistical MT (SMT) or Neural MT (NMT) -- is the availability of high-quality parallel data. This is arguably more important today than ever before, as NMT has been shown in many studies to outperform SMT, but mostly when large parallel corpora are available; in cases where data is limited, SMT can still outperform NMT. Recently researchers have shown that back-translating monolingual data can be used to create synthetic parallel corpora, which in turn can be used in combination with authentic parallel data to train a high-quality NMT system. Given that large collections of new parallel text become available only quite rarely, backtranslation has become the norm when building state-of-the-art NMT systems, especially in resource-poor scenarios. However, we assert that there are many unknown factors regarding the actual effects of back-translated data on the translation capabilities of an NMT model. Accordingly, in this work we investigate how using back-translated data as a training corpus -- both as a separate standalone dataset as well as combined with human-generated parallel data -- affects the performance of an NMT model. We use incrementally larger amounts of back-translated data to train a range of NMT systems for German-to-English, and analyse the resulting translation performance.

연구 동기 및 목표

데이터 크기에 따라 백번역(back-translated) 데이터가 NMT 성능에 미치는 영향을 평가한다

제안 방법

WMT 2015 독일어→영어 데이터를 대상으로 OpenNMT-py를 사용해 주의(attention)가 있는 2계층 LSTM NMT 모델을 학습한다
초기 NMT 모델로 English→German을 역번역(back-translation)하여 합성 데이터를 생성한다
BLEU, TER, METEOR, CHRF1을 사용해 실제 데이터만, 합성 데이터만, 그리고 하이브리드 데이터셋을 평가한다
성능 추세를 관찰하기 위해 실제 데이터와 합성 데이터의 크기를 점진적으로 변화시킨다
역번역 데이터의 효과를 분리하기 위해 고정된 기본 구성을 사용한다

실험 결과

연구 질문

RQ1실제 데이터로 학습할 때 역번역 데이터의 양을 늘리는 것이 NMT 품질에 어떤 영향을 미치는가?
RQ2합성 데이터만으로도 실제 데이터에 근접한 NMT 성능을 낼 수 있는가?
RQ3하이브리드 학습에서 실제 데이터와 역번역 데이터의 최적 균형은 무엇인가?
RQ4합성 데이터가 더해질수록 하이브리드 모델의 성능에 해로운 트리거 포인트가 존재하는가?

주요 결과

실제 데이터가 많아질수록 NMT 모델의 성능이 향상되며, 3백만 문장에서 정점에 이르고 350만 문장에서 약간 하락(BLEU 0.2446)
합성 데이터만으로도 실제 데이터의 성능에 근접할 수 있으며 350만 개의 합성 문장으로 BLEU 0.2363로 정점에 도달
하이브리드 모델(1백만 실제 데이터 + 다양한 합성 데이터)은 데이터 규모가 작고 중간인 경우 실제 데이터만 사용하는 기준선보다 일반적으로 우수한 성능을 보임
하이브리드에서 합성 대 실제의 비율이 최대 2:1까지 이득을 주는 경우가 있었으나 그 이상에서는 이점이 고정되거나 감소할 수 있음(예: 3.5M 하이브리드 BLEU 0.2442 vs 3M 하이브리드 BLEU 0.2442)
저자원 환경에서도 역번역은 여전히 유익하며, 큰 합성 말뭉치를 통해 NMT 시스템을 초기화할 수 있음

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.