Skip to main content
QUICK REVIEW

[논문 리뷰] Towards Making the Most of BERT in Neural Machine Translation

Jiacheng Yang, Mingxuan Wang|arXiv (Cornell University)|2019. 08. 15.
Topic Modeling참고 문헌 25인용 수 31
한 줄 요약

이 논문은 유사한 분산, 동적 스위칭 게이트, 비율 스케줄링 학습을 조합하여 BERT를 신경 기계 번역(NMT)에 통합함으로써 치명적인 잊음 문제를 완화하는 통합 학습 프레임워크 CTnmt를 제안한다. 이 방법은 WMT14 영어-독어 번역에서 BLEU 점수를 최대 3.0 향상시키며, 동일 벤치마크에서 이전 최고 성능(SOTA)을 1.4 BLEU 초월하여 최고 성능을 달성한다.

ABSTRACT

GPT-2 and BERT demonstrate the effectiveness of using pre-trained language models (LMs) on various natural language processing tasks. However, LM fine-tuning often suffers from catastrophic forgetting when applied to resource-rich tasks. In this work, we introduce a concerted training framework (CTNMT) that is the key to integrate the pre-trained LMs to neural machine translation (NMT). Our proposed CTNMT consists of three techniques: a) asymptotic distillation to ensure that the NMT model can retain the previous pre-trained knowledge; b) a dynamic switching gate to avoid catastrophic forgetting of pre-trained knowledge; and c) a strategy to adjust the learning paces according to a scheduled policy. Our experiments in machine translation show CTNMT gains of up to 3 BLEU score on the WMT14 English-German language pair which even surpasses the previous state-of-the-art pre-training aided NMT by 1.4 BLEU score. While for the large WMT14 English-French task with 40 millions of sentence-pairs, our base model still significantly improves upon the state-of-the-art Transformer big model by more than 1 BLEU score. The code and model can be downloaded from https://github.com/bytedance/neurst/ tree/master/examples/ctnmt.

연구 동기 및 목표

  • 자원이 풍부한 신경 기계 번역(NMT) 환경에서 BERT를 미세조정할 때 발생하는 치명적인 잊음 문제를 해결한다.
  • 대규모 벤치마크인 WMT14에서 성능 향상이 이루어지지 않는 직접적인 BERT 통합 방식의 한계를 극복한다.
  • 사전 훈련된 언어 모델 지식과 NMT의 시퀀스-투-시퀀스 학습을 효과적으로 융합하는 통합 프레임워크를 개발한다.
  • 공동 학습을 통해 BERT의 보편적 지식을 유지하면서도 번역 전용 작업에 적응함으로써 NMT 성능을 향상시킨다.
  • 대규모 고자원 번역 데이터셋인 WMT14 영어-프랑스어 및 영어-중국어 데이터셋에서 제안된 방법의 유효성을 입증한다.

제안 방법

  • BERT(선생)의 은닉 표현과 NMT 인코더(학생)의 은닉 표현 간의 L2 또는 교차 엔트로피 손실을 최소화하여 비선형 분산을 적용함으로써 사전 훈련된 BERT의 지식을 NMT 인코더로 전이한다.
  • 입력 기반의 주의 메커니즘에 따라 BERT 인코딩 표현과 NMT 인코더 출력을 적응적으로 융합하는 동적 스위칭 게이트를 도입하여 맥락 인식 융합을 가능하게 한다.
  • BERT와 NMT 구성 요소의 학습률을 별도로 제어하는 비율 스케줄링 학습 전략을 구현하여 과적합을 방지하고 사전 훈련된 지식을 유지한다.
  • 추가 파라미터 없이도 지식 희석, 동적 게이트, 스케줄링 학습의 세 구성 요소를 함께 훈련하여 NMT 모델을 엔드 투 엔드로 학습한다.
  • BERT의 마지막 레이어를 초기 인코더 표현으로 사용하면서도, 공동 학습 중에 NMT 인코더가 작업 특화 특징을 학습하도록 허용한다.
  • 번역 품질과 지식 유지 모두를 보장하기 위해 NMT 손실과 지식 희석 손실을 포함하는 다중 태스크 목적 함수를 최적화한다.

실험 결과

연구 질문

  • RQ1자원이 풍부한 NMT 환경에서 사전 훈련된 BERT를 치명적인 잊음 없이 효과적으로 미세조정할 수 있는가?
  • RQ2BERT의 맥락적 표현과 NMT의 시퀀스 모델링 간의 상호보완적 강점을 번역 작업에서 어떻게 공동 최적화할 수 있는가?
  • RQ3BERT의 사전 훈련된 지식를 유지하면서도 NMT에 적응시키기 위해 가장 효과적인 훈련 전략은 무엇인가?
  • RQ4BERT와 NMT 인코더 특징의 동적 융합은 고정 또는 직접 임bedding 교체 방식보다 성능 향상에 기여하는가?
  • RQ5BERT와 NMT 구성 요소에 대해 별도의 학습률 스케줄링을 적용하는 것이 균일한 미세조정 대비 수렴성과 최종 성능 향상에 기여하는가?

주요 결과

  • CTnmt는 WMT14 영어-독어 번역 벤치마크에서 최대 3.0 BLEU 향상을 달성하며, 이는 이전 SOTA를 1.4 BLEU 초월한 성과이다.
  • 4,000만 개의 문장 쌍을 포함하는 대규모 WMT14 영어-프랑스어 데이터셋에서 CTnmt는 SOTA Transformer-big 모델을 1.0 BLEU 이상 초월한다.
  • 영어-중국어 WMT14 벤치마크에서 CTnmt는 1.6 BLEU 향상을 기록하여 다양한 언어 조합 간에서 일관된 성능 향상을 입증한다.
  • 유사 분산 전략은 사전 훈련된 BERT 지식을 효과적으로 유지함을 입증하며, 미세조정 기간 동안 안정적인 성능을 보였다.
  • 동적 스위칭 게이트는 BERT나 NMT가 별도로 성능이 열 劣한 문장에서 특히 더 나은 표현 융합을 가능하게 한다.
  • 비율 스케줄링 학습 전략은 BERT와 NMT 구성 요소의 업데이트 속도를 분리함으로써 모델 수렴성과 최종 성능을 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.