QUICK REVIEW

[논문 리뷰] Very Deep Transformers for Neural Machine Translation

Xiaodong Liu, Kevin Duh|arXiv (Cornell University)|2020. 08. 18.

Natural Language Processing Techniques참고 문헌 35인용 수 71

한 줄 요약

본 논문은 ADMIN 초기화를 사용하여 표준 트랜스포머를 매우 깊게(최대 60 인코더 계층 및 12 디코더 계층) 학습시킬 수 있음을 입증하며, 백-번역 여부에 관계없이 WMT’14 EN-FR 및 EN-DE에서 최대 2.5 BLEU 향상을 달성하고 새로운 최첨단 결과를 얻는다.

ABSTRACT

We explore the application of very deep Transformer models for Neural Machine Translation (NMT). Using a simple yet effective initialization technique that stabilizes training, we show that it is feasible to build standard Transformer-based models with up to 60 encoder layers and 12 decoder layers. These deep models outperform their baseline 6-layer counterparts by as much as 2.5 BLEU, and achieve new state-of-the-art benchmark results on WMT14 English-French (43.8 BLEU and 46.4 BLEU with back-translation) and WMT14 English-German (30.1 BLEU).The code and trained models will be publicly available at: https://github.com/namisan/exdeep-nmt.

연구 동기 및 목표

더 깊은 Transformer 아키텍처가 NMT 성능을 향상시킬 수 있는지 조사한다.
아키텍처 변경 없이도 매우 깊은 모델을 가능하게 하는 안정적인 초기화를 개발한다.
표준 WMT’14 EN-FR 및 EN-DE 벤치마크에서 깊이에 따른 효과를(back-translation 여부와 상관없이) 평가한다.
재현 가능한 결과를 제공하고 추가 연구를 촉진하기 위해 코드/모델을 공개한다.

제안 방법

딥 트랜스포머 블록의 잔차 경로와 피드포워드 경로의 균형을 맞추기 위해 ADMIN 초기화를 적용한다.
레이어별 잔차 분산을 추정하고 계층-스케일링 계수 ω_i 를 설정하기 위한 프로파일링 단계을 사용한다.
단일 GPU 친화 조건에서 최대 60 인코더 계층 및 12 디코더 계층으로 표준 post-LN 트랜스포머 아키텍처를 훈련한다.
BLEU, TER, METEOR 지표에서 깊은 ADMIN 모델과 표준 6L-6L 베이스라인을 비교한다.
인코더/디코더 깊이 및 네트워크 너비에 걸친 차등 제거(ablations) 연구를 수행한다.
깊은 모델에서 WMT’14 EN-FR의 역번역(back-translation) 효과를 평가한다.

실험 결과

연구 질문

RQ1표준 트랜스포머 아키텍처를 principled initialization으로 매우 큰 깊이에서 효과적으로 학습시킬 수 있는가?
RQ2깊이가 NMT 품질에 대해 언어 쌍(EN-FR, EN-DE)과 평가 지표 전반에 걸쳐 일관된 향상을 제공하는가?
RQ3학습 역학(학습 perplexity 및 그래디언트 동작 등)에 깊이가 미치는 영향은 무엇인가?
RQ4깊은 모델이 저빈도 단어 및 긴 문장 번역을 개선하는가?
RQ5백-번역 데이터가 얕은 모델과 유사하게 매우 깊은 모델에도 지속적으로 이익을 주는가?

주요 결과

모델	데이터셋	데이터셋 크기 (param)	T↓	M↑	BLEU↑	Δ
6L-6L Default	FR	67M	42.2	60.5	41.3	-
6L-6L ADMIN	FR	67M	41.8	60.7	41.5	0.2
60L-12L Default	FR	262M	diverge	-	-	-
60L-12L ADMIN	FR	262M	40.3	62.4	43.8	2.5
6L-6L Default	DE	61M	54.4	46.6	27.6	-
6L-6L ADMIN	DE	61M	54.1	46.7	27.7	0.1
60L-12L Default	DE	256M	diverge	-	-	-
60L-12L ADMIN	DE	256M	51.8	48.3	30.1	2.5

60L 인코더와 12L 디코더(60L-12L ADMIN)는 EN-FR 및 EN-DE에서 6L-6L 베이스라인 대비 최대 2.5 BLEU의 향상을 달성한다.
60L-12L ADMIN는 FR에서 BLEU 43.8, DE에서 30.1로, 6L-6L 기본값 대비 개선되었으며 통계적으로 유의한 차이(p<0.05)이다.
60L-12L ADMIN는 또한 TER 및 METEOR에서도 개선을 보이며(예: FR TER 40.3 대 42.2; METEOR 62.4 대 60.5).
Pre-LN 변형은 학습은 가능하나 post-LN ADMIN 심층 모델에 비해 성능이 떨어지며, 심층 post-LN ADMIN 모델이 두 벤치마크에서 최첨단을 달린다.
차후 연구에 대한 차단 제거를 위한 abllation은 동일한 총 깊이에 대해 더 깊은 인코더가 더 깊은 디코더보다 더 이득이 크다는 것을 보여주었으며; 60L-12L, 48L-12L, 36L-36L는 BLEU에서 통계적으로 동등하게 최상이다.
BACK-번역이 ADMIN 모델과 함께 EN-FR BLEU를 더욱 향상시키며, 36L-12L-768D ADMIN + BT에서 46.4, 60L-12L ADMIN + BT에서 46.0을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.