[논문 리뷰] Weighted Transformer Network for Machine Translation
가중형 Transformer는 다중-헤드 어텐션을 학습 가능한 자기 어텐션 가지로 대체하여 기준 Transformer보다 BLEU 점수를 높이고 수렴이 15-40% 더 빠릅니다.
State-of-the-art results on neural machine translation often use attentional sequence-to-sequence models with some form of convolution or recursion. Vaswani et al. (2017) propose a new architecture that avoids recurrence and convolution completely. Instead, it uses only self-attention and feed-forward layers. While the proposed architecture achieves state-of-the-art results on several machine translation tasks, it requires a large number of parameters and training iterations to converge. We propose Weighted Transformer, a Transformer with modified attention layers, that not only outperforms the baseline network in BLEU score but also converges 15-40% faster. Specifically, we replace the multi-head attention by multiple self-attention branches that the model learns to combine during the training process. Our model improves the state-of-the-art performance by 0.5 BLEU points on the WMT 2014 English-to-German translation task and by 0.4 on the English-to-French translation task.
연구 동기 및 목표
- Transformer 기반 NMT에서 성능을 희생하지 않으면서 학습 시간 및 매개변수 비효율성을 줄이는 것을 동기로 삼는다.
- 다중-헤드 어텐션을 대체할 브랜치형 자기 어텐션 메커니즘을 제안한다.
- WMT 2014 EN-DE 및 EN-FR 데이터셋에서 BLEU 점수 개선을 입증하고 규제 효과를 분석한다.
제안 방법
- Transformer의 다중-헤드 어텐션을 브랜치형 자기 어텐션으로 대체한다. 각 브랜치는 Attention(QW_i^Q, KW_i^K, VW_i^V)를 계산하고 학습된 투영 〟bar{head}_i 를 얻는다;
- 브랜치 출력은 〟bar{head}_i = head_i W^{O_i} 〟rac{_i}{}, 로 계산되며, 학습된 가중치 와 가 브랜치 간 합이 1이 되도록 한다;
- 브랜치를 합성하여 BranchedAttention(Q,K,V) = sum_{i=1}^M _i FFN(〟bar{head}_i) 로 표현하며, 제약 조건으로 sum_i _i = 1 및 sum_i 〟_i = 1을 가진다;
- 디코더에서 위치 인코딩, 층 정규화, 잔차 연결 및 마스킹을 유지한다;
- 레이블 스무딩, 드롭아웃 및 워밍업 스케줄을 가진 Adam으로 학습한다;
- 입력 임베딩을 출력 계층과 연결하고 길이별로 배치를 묶어 패딩을 줄인다.
실험 결과
연구 질문
- RQ1다중-헤드 어텐션을 학습된 브랜치 자기 어텐션으로 대체하면 번역 품질과 학습 효율이 향상되는가?
- RQ2학습 중에 학습된 브랜치 가중치(〟, )가 어떻게 진화하며, 이것이 브랜치 간 규제화나 상관 저하를 나타내는가?
- RQ3브랜치 수 및 다른 하이퍼파라미터가 BLEU 점수와 수렴 속도에 어떤 영향을 미치는가?
- RQ4Weighted Transformer가 기초 Transformer에 비해 언어쌍 및 모델 크기에 대해 견고한가?
주요 결과
- Weighted Transformer가 EN-DE 및 EN-FR에서 소형 및 대형 구성에서 Transformer보다 BLEU 점수가 더 높다(예: 소형: EN-DE 28.4 vs 27.3; EN-FR 38.9 vs 38.1).
- 소형 Weighted Transformer가 파라미터 수를 대폭 줄인 상태에서 대형 Transformer에 거의 도달하거나 능가한다(예: Transformer 파라미터의 30%인 소형 Weighted Transformer가 성능과 일치).
- 학습 수렴이 기준 Transformer보다 15-40% 더 빠르다.
- 학습된 브랜치 가중치는 일부 브랜치가 우선되며 시간이 지나면 다른 브랜치가 기여하여 상관 제거 및 규제 효과를 나타낸다.
- 무작위화 또는 균일한 테스트 시 가중치는 성능 저하를 초래하므로 학습된 가중치가 좋은 결과에 결정적이다.
- Hard top-k 선택으로 게이팅하는 것은 제안된 연속 가중치 체계에 비해 성능이 떨어져 이 설정에서 희소 게이팅의 이점이 제한적임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.