[논문 리뷰] Using Self-Training to Improve Back-Translation in Low Resource Neural Machine Translation
이 논문은 저자원 신경 기계 번역에서 역번역 모델을 반복적으로 향상시키기 위해 자신의 출력을 활용해 스스로를 개선하는 자기학습 접근법을 제안한다. 이로 인해 고급 품질의 합성 병렬 데이터가 생성되며, IWSLT'14 영어-독어 번역 모델의 성능을 11.06 BLEU 향상시키고, 표준 역번역 대비 전방 번역 성능을 2.7 BLEU 향상시킨다.
Improving neural machine translation (NMT) models using the back-translations of the monolingual target data (synthetic parallel data) is currently the state-of-the-art approach for training improved translation systems. The quality of the backward system - which is trained on the available parallel data and used for the back-translation - has been shown in many studies to affect the performance of the final NMT model. In low resource conditions, the available parallel data is usually not enough to train a backward model that can produce the qualitative synthetic data needed to train a standard translation model. This work proposes a self-training strategy where the output of the backward model is used to improve the model itself through the forward translation technique. The technique was shown to improve baseline low resource IWSLT'14 English-German and IWSLT'15 English-Vietnamese backward translation models by 11.06 and 1.5 BLEUs respectively. The synthetic data generated by the improved English-German backward model was used to train a forward model which out-performed another forward model trained using standard back-translation by 2.7 BLEU.
연구 동기 및 목표
- 제한된 병렬 학습 데이터로 인해 저자원 신경 기계 번역에서 역번역 품질이 떨어지는 문제를 해결하기 위해.
- 역번역을 통해 생성된 합성 병렬 데이터의 품질을 향상시키기 위해 역모델을 반복적으로 개선하기 위해.
- 향상된 역모델에서 유도된 더 나은 합성 데이터를 활용해 최종 전방 번역 모델의 성능을 향상시키기 위해.
- 자기학습이 역모델의 출력에 적용될 경우 저자원 환경에서 측정 가능한 성능 향상이 이루어지는지 입증하기 위해.
제안 방법
- 저자원 환경에서 이용 가능한 제한된 병렬 데이터를 기반으로 먼저 역모델을 훈련시킨다.
- 훈련된 역모델이 소스 측 단일언어 데이터를 번역하여 합성 타겟 측 단일언어 문장을 생성한다.
- 모델은 단일언어 데이터에 대한 자신의 예측 결과를 가짜 타겟으로 사용하여 자체 예측 결과를 기반으로 미세조정함으로써 자기학습을 적용해 안정성과 품질을 향상시킨다.
- 개선된 역모델이 더 높은 품질의 합성 병렬 데이터를 생성하며, 이 데이터는 다시 전방 번역 모델을 재훈련하는 데 사용된다.
- 전방 모델은 실제 병렬 데이터와 자기학습된 역모델에서 유도된 향상된 합성 데이터를 모두 사용해 훈련된다.
- 전방 번역 능력을 활용해 반복적으로 역모델을 향상시키는 피드백 루프를 구축함으로써 품질 향상에 기여한다.
실험 결과
연구 질문
- RQ1역모델의 자체 출력에 대해 자기학습을 적용하면 저자원 신경 기계 번역에서 성능 향상이 이루어지는가?
- RQ2역모델을 향상시키면 전방 번역을 위한 더 나은 품질의 합성 병렬 데이터가 생성되는가?
- RQ3향상된 합성 데이터가 최종 전방 번역 모델의 성능 향상에 어느 정도 기여하는가?
- RQ4BLEU 점수 향상 측면에서 제안된 방법이 표준 역번역 대비 어떻게 비교되는가?
주요 결과
- 자기학습 방법은 IWSLT'14 영어-독어 역번역 모델의 성능을 11.06 BLEU 포인트 향상시켰다.
- IWSLT'15 영어-베트남어 역번역 모델은 자기학습을 통해 1.5 BLEU 향상되었다.
- 향상된 역모델이 생성한 합성 데이터 덕분에 전방 번역 모델의 성능이 표준 역번역 대비 2.7 BLEU 향상되었다.
- 자기학습된 역모델에서 유도된 합성 데이터를 사용해 훈련된 전방 모델은 베이스라인 전방 모델을 능가했다.
- 반복적으로 역모델을 개선함으로써 저자원 병렬 데이터로 인한 성능 저하 문제를 효과적으로 완화할 수 있었다.
- 결과적으로 자기학습이 모델 출력에 적용될 경우 합성 데이터 품질 향상과 후속 번역 성능 향상에 실현 가능한 전략임을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.