QUICK REVIEW

[논문 리뷰] A Hybrid Approach for Improved Low Resource Neural Machine Translation using Monolingual Data

Idris Abdulmumin, Bashir Shehu Galadanci|arXiv (Cornell University)|2020. 01. 01.

Natural Language Processing Techniques참고 문헌 67인용 수 2

한 줄 요약

이 논문은 단지 목표 언어의 단일 언어 데이터만을 사용하여 저자원 신경 기계 번역(NMT)을 향상시키기 위해 하이브리드 자기학습 및 백번역 방법을 제안한다. 반복적으로 합성 데이터에서 자기학습을 통해 역방향 모델을 개선하고, 이를 통해 정방향 모델의 훈련 데이터 품질을 높이는 방식으로, 표준 백번역 및 반복적 백번역보다 영어-독일어 NMT에서 더 높은 BLEU 점수를 달성한다. 이는 모델 복잡도와 훈련 시간을 줄이는 데에도 기여한다.

ABSTRACT

Many language pairs are low resource, meaning the amount and/or quality of available parallel data is not sufficient to train a neural machine translation (NMT) model which can reach an acceptable standard of accuracy. Many works have explored using the readily available monolingual data in either or both of the languages to improve the standard of translation models in low, and even high, resource languages. One of the most successful of such works is the back-translation that utilizes the translations of the target language monolingual data to increase the amount of the training data. The quality of the backward model which is trained on the available parallel data has been shown to determine the performance of the back-translation approach. Despite this, only the forward model is improved on the monolingual target data in standard back-translation. A previous study proposed an iterative back-translation approach for improving both models over several iterations. But unlike in the traditional back-translation, it relied on both the target and source monolingual data. This work, therefore, proposes a novel approach that enables both the backward and forward models to benefit from the monolingual target data through a hybrid of self-learning and back-translation respectively. Experimental results have shown the superiority of the proposed approach over the traditional back-translation method on English-German low resource neural machine translation. We also proposed an iterative self-learning approach that outperforms the iterative back-translation while also relying only on the monolingual target data and require the training of less models.

연구 동기 및 목표

부족한 병렬 데이터로 인해 모델 성능이 제한되는 저자원 신경 기계 번역(NMT) 문제를 해결한다.
저자원 환경에서 초기 역방향 모델의 품질에 크게 의존하는 표준 백번역의 한계를 극복한다.
하이브리드 자기학습 및 백번역 전략을 통해 단지 목표 언어의 단일 언어 데이터만을 사용하여 정방향 및 역방향 모델을 향상시킨다.
원천 단일 언어 데이터에 대한 의존도를 줄이고 반복적 접근에서 훈련하는 모델의 수를 최소화한다.
품질 평가 시스템이나 병렬 데이터가 없는 저자원 언어에 적용 가능한 실현 가능하고 확장 가능한 방법을 개발한다.

제안 방법

초기 역방향 모델(x ← y)을 통해 목표 언어의 단일 언어 데이터를 활용해 합성 병렬 문장을 생성한다.
합성 데이터만을 사용하여 자기학습을 적용해 역방향 모델을 재학습함으로써 품질을 반복적으로 향상시킨다.
개선된 역방향 모델을 사용해 정방향 모델(x → y) 훈련을 위한 더 높은 품질의 합성 데이터를 생성한다.
자기학습에 품질 평가(QE)를 통합하여 가장 신뢰할 수 있는 합성 번역문을 걸러내고 재학습한다.
품질 평가를 생략하고 합성 데이터의 연속적인 개선에 의존하는 반복적 자기학습의 변형을 구현한다.
진정한 병렬 데이터에 대한 피니팅 이전에 합성 데이터에서 사전 훈련한 후 성능 최적화를 위해 최적화한다.

실험 결과

연구 질문

RQ1단지 목표 언어의 단일 언어 데이터만을 사용하여 하이브리드 자기학습 및 백번역 접근법이 저자원 환경에서 NMT 성능을 향상시킬 수 있는가?
RQ2자기학습을 백번역 파이프라인에 통합할 경우 합성 데이터의 품질과 최종 번역 성능에 어떤 영향을 미치는가?
RQ3품질 평가 없이도 반복적 자기학습이 품질 평가를 통한 자기학습과 유사한 성능을 달성할 수 있는가?
RQ4반복적 백번역에 비해 모델 수와 훈련 시간을 줄일 수 있는가?
RQ5품질 평가 시스템이 없는 저자원 언어에 대해 이 하이브리드 접근법은 확장 가능하고 실현 가능한가?

주요 결과

제안된 하이브리드 접근법은 영어-독일어 저자원 NMT 작업에서 표준 백번역을 능가하여 더 높은 BLEU 점수를 달성했다.
품질 평가를 통합한 반복적 자기학습 접근법이 가장 우수한 성능을 보였으며, 고품질 합성 번역문을 걸러내는 것이 모델 성능 향상에 기여함을 입증했다.
품질 평가 없이도 반복적 자기학습 방법이 QE를 통한 버전과 유사한 성능을 달성하여 저자원 환경에서의 실현 가능성과 타당성을 입증했다.
단순화된 반복적 자기학습 백번역 접근법은 반복적 백번역에 비해 필요한 모델 수와 훈련 시간을 줄였다.
합성 데이터에서 사전 훈련한 후 진짜 병렬 데이터로 피니팅하는 전략이 모델 최적화에 가장 효과적인 것으로 밝혀졌다.
이 방법은 단지 목표 언어의 단일 언어 데이터만을 사용하여도 역방향 및 정방향 모델을 모두 향상시켜 저자원 번역 시나리오에서 효과적임을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.