QUICK REVIEW

[논문 리뷰] Towards Making the Most of BERT in Neural Machine Translation

Jiacheng Yang, Mingxuan Wang|arXiv (Cornell University)|2019. 08. 15.

Topic Modeling참고 문헌 25인용 수 31

한 줄 요약

이 논문은 유사한 분산, 동적 스위칭 게이트, 비율 스케줄링 학습을 조합하여 BERT를 신경 기계 번역(NMT)에 통합함으로써 치명적인 잊음 문제를 완화하는 통합 학습 프레임워크 CTnmt를 제안한다. 이 방법은 WMT14 영어-독어 번역에서 BLEU 점수를 최대 3.0 향상시키며, 동일 벤치마크에서 이전 최고 성능(SOTA)을 1.4 BLEU 초월하여 최고 성능을 달성한다.

ABSTRACT

GPT-2 and BERT demonstrate the effectiveness of using pre-trained language models (LMs) on various natural language processing tasks. However, LM fine-tuning often suffers from catastrophic forgetting when applied to resource-rich tasks. In this work, we introduce a concerted training framework (CTNMT) that is the key to integrate the pre-trained LMs to neural machine translation (NMT). Our proposed CTNMT consists of three techniques: a) asymptotic distillation to ensure that the NMT model can retain the previous pre-trained knowledge; b) a dynamic switching gate to avoid catastrophic forgetting of pre-trained knowledge; and c) a strategy to adjust the learning paces according to a scheduled policy. Our experiments in machine translation show CTNMT gains of up to 3 BLEU score on the WMT14 English-German language pair which even surpasses the previous state-of-the-art pre-training aided NMT by 1.4 BLEU score. While for the large WMT14 English-French task with 40 millions of sentence-pairs, our base model still significantly improves upon the state-of-the-art Transformer big model by more than 1 BLEU score. The code and model can be downloaded from https://github.com/bytedance/neurst/ tree/master/examples/ctnmt.

연구 동기 및 목표

자원이 풍부한 신경 기계 번역(NMT) 환경에서 BERT를 미세조정할 때 발생하는 치명적인 잊음 문제를 해결한다.
대규모 벤치마크인 WMT14에서 성능 향상이 이루어지지 않는 직접적인 BERT 통합 방식의 한계를 극복한다.
사전 훈련된 언어 모델 지식과 NMT의 시퀀스-투-시퀀스 학습을 효과적으로 융합하는 통합 프레임워크를 개발한다.
공동 학습을 통해 BERT의 보편적 지식을 유지하면서도 번역 전용 작업에 적응함으로써 NMT 성능을 향상시킨다.
대규모 고자원 번역 데이터셋인 WMT14 영어-프랑스어 및 영어-중국어 데이터셋에서 제안된 방법의 유효성을 입증한다.

제안 방법

BERT(선생)의 은닉 표현과 NMT 인코더(학생)의 은닉 표현 간의 L2 또는 교차 엔트로피 손실을 최소화하여 비선형 분산을 적용함으로써 사전 훈련된 BERT의 지식을 NMT 인코더로 전이한다.
입력 기반의 주의 메커니즘에 따라 BERT 인코딩 표현과 NMT 인코더 출력을 적응적으로 융합하는 동적 스위칭 게이트를 도입하여 맥락 인식 융합을 가능하게 한다.
BERT와 NMT 구성 요소의 학습률을 별도로 제어하는 비율 스케줄링 학습 전략을 구현하여 과적합을 방지하고 사전 훈련된 지식을 유지한다.
추가 파라미터 없이도 지식 희석, 동적 게이트, 스케줄링 학습의 세 구성 요소를 함께 훈련하여 NMT 모델을 엔드 투 엔드로 학습한다.
BERT의 마지막 레이어를 초기 인코더 표현으로 사용하면서도, 공동 학습 중에 NMT 인코더가 작업 특화 특징을 학습하도록 허용한다.
번역 품질과 지식 유지 모두를 보장하기 위해 NMT 손실과 지식 희석 손실을 포함하는 다중 태스크 목적 함수를 최적화한다.

실험 결과

연구 질문

RQ1자원이 풍부한 NMT 환경에서 사전 훈련된 BERT를 치명적인 잊음 없이 효과적으로 미세조정할 수 있는가?
RQ2BERT의 맥락적 표현과 NMT의 시퀀스 모델링 간의 상호보완적 강점을 번역 작업에서 어떻게 공동 최적화할 수 있는가?
RQ3BERT의 사전 훈련된 지식를 유지하면서도 NMT에 적응시키기 위해 가장 효과적인 훈련 전략은 무엇인가?
RQ4BERT와 NMT 인코더 특징의 동적 융합은 고정 또는 직접 임bedding 교체 방식보다 성능 향상에 기여하는가?
RQ5BERT와 NMT 구성 요소에 대해 별도의 학습률 스케줄링을 적용하는 것이 균일한 미세조정 대비 수렴성과 최종 성능 향상에 기여하는가?

주요 결과

CTnmt는 WMT14 영어-독어 번역 벤치마크에서 최대 3.0 BLEU 향상을 달성하며, 이는 이전 SOTA를 1.4 BLEU 초월한 성과이다.
4,000만 개의 문장 쌍을 포함하는 대규모 WMT14 영어-프랑스어 데이터셋에서 CTnmt는 SOTA Transformer-big 모델을 1.0 BLEU 이상 초월한다.
영어-중국어 WMT14 벤치마크에서 CTnmt는 1.6 BLEU 향상을 기록하여 다양한 언어 조합 간에서 일관된 성능 향상을 입증한다.
유사 분산 전략은 사전 훈련된 BERT 지식을 효과적으로 유지함을 입증하며, 미세조정 기간 동안 안정적인 성능을 보였다.
동적 스위칭 게이트는 BERT나 NMT가 별도로 성능이 열 劣한 문장에서 특히 더 나은 표현 융합을 가능하게 한다.
비율 스케줄링 학습 전략은 BERT와 NMT 구성 요소의 업데이트 속도를 분리함으로써 모델 수렴성과 최종 성능을 크게 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.