QUICK REVIEW

[논문 리뷰] Incorporating BERT into Neural Machine Translation

Jinhua Zhu, Yingce Xia|arXiv (Cornell University)|2020. 02. 17.

Topic Modeling참고 문헌 31인용 수 173

한 줄 요약

BERT 표현을 트랜스포머 기반 NMT 시스템의 모든 인코더/디코더 레이어에 주입하는 BERT 융합 모델을 제안하여, 여러 벤치마크에서 감독 학습, 준지도 학습, 비지도 MT 과제에서 최첨단 결과를 달성.

ABSTRACT

The recently proposed BERT has shown great power on a variety of natural language understanding tasks, such as text classification, reading comprehension, etc. However, how to effectively apply BERT to neural machine translation (NMT) lacks enough exploration. While BERT is more commonly used as fine-tuning instead of contextual embedding for downstream language understanding tasks, in NMT, our preliminary exploration of using BERT as contextual embedding is better than using for fine-tuning. This motivates us to think how to better leverage BERT for NMT along this direction. We propose a new algorithm named BERT-fused model, in which we first use BERT to extract representations for an input sequence, and then the representations are fused with each layer of the encoder and decoder of the NMT model through attention mechanisms. We conduct experiments on supervised (including sentence-level and document-level translations), semi-supervised and unsupervised machine translation, and achieve state-of-the-art results on seven benchmark datasets. Our code is available at \url{https://github.com/bert-nmt/bert-nmt}.

연구 동기 및 목표

BERT를 처음부터 학습시키지 않고 신경 기계 번역에 활용하는 것을 목표로 한다.
BERT 표현을 모든 NMT 레이어에 주입하도록 BERT-융합 모델을 개발한다.
저자들은 저자원과 고자원 설정에서 번역 품질을 향상시키고, 문서 레벨 및 준지도 시나리오를 포함한다.
여러 언어쌍과 MT 패러다임(감독, 준지도, 비지도)에서 접근법을 평가한다.

제안 방법

입력 시퀀스에 대한 BERT 표현을 얻고, 이를 각 인코더/디코더 레이어와 이중 주의(attention) 메커니즘(BERT-인코더 주의 및 BERT-디코더 주의)을 사용해 융합한다.
표준 NMT 주의와 BERT 파생 주의를 결합한 2방향 주의 스킴으로 융합 레이어 표현을 계산한다.
학습 중 BERT와 NMT 특징의 균형 사용을 촉진하기 위한 drop-net 정규화 도입.
훈련은 단계적으로 수행: NMT를 사전 학습한 뒤, 학습된 NMT로 초기화하되 BERT를 고정하고 BERT 융합 구성요소를 추가한다.
BERT 표현에 앞선 맥락 문장을 연결하여 문서 수준 입력을 적용해 번역 일관성을 높인다.
감독, 준지도(백번역), 비지도 MT 설정에서 BLEU로 평가한다.

실험 결과

연구 질문

RQ1사전 학습된 BERT 표현을 모든 NMT 레이어에 주입하는 방식으로 언어쌍 간 번역 품질이 향상될 수 있는가?
RQ2문맥 임베딩으로서 BERT를 활용하는 것이 단순히 NMT를 BERT로 초기화하거나 BERT를 입력 임베딩으로만 사용하는 것보다 더 나은가?
RQ3저자원과 고자원 설정에서의 성능에서, 문서 수준 및 준지도 시나리오를 포함하여 어떻게 변화하는가?
RQ4drop-net 정규화가 일반화와 성능에 미치는 영향은?
RQ5이 방법이 비지도 MT 작업에서 최첨단 결과를 달성할 수 있는가?

주요 결과

BERT-융합 모델은 테스트된 모든 IWSLT 및 WMT 작업에서 표준 Transformer 베이스라인을 능가하며, 여러 언어쌍에서 BLEU 증가가 약 1.5에서 2.8까지 나타난다.
IWSLT’14 De→En에서 새로운 BLEU 36.11로 기록을 달성하며 이전 결과를 상회한다.
WMT’14 En→De 및 En→Fr에서 BLEU 점수는 각각 30.75 및 43.78에 도달하여 베이스라인과 다수의 동시대 모델을 능가한다.
semi-supervised Ro→En에서 접근법이 39.10 BLEU로 XLM 및 이전 백번역 베이스라인을 상회한다.
비지도 En↔Fr 및 En↔Ro 번역에서 이 방법은 최첨단 BLEU 점수를 달성한다(네 가지 작업에 대해 38.27/35.62/36.02/33.20).
BERT-융합으로 문서 수준 번역이 De→En에서 36.69 BLEU까지 추가로 향상되어 문장 간 맥락에 대한 효과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.