Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Head Attention with Disagreement Regularization

Jian Li, Zhaopeng Tu|arXiv (Cornell University)|2018. 10. 24.
Topic Modeling참고 문헌 21인용 수 22
한 줄 요약

이 논문은 다중 헤드 어텐션에서 어휘 헤드 간의 다양성을 명시적으로 장려함으로써 성능을 향상시키기 위해 불일치 정규화를 제안한다. 트랜스포머 모델에 서브스페이스, 주목한 위치, 출력 표현에 대한 세 가지 유형의 정규화를 적용함으로써, 영어-독일어 및 중국어-영어 작업에서 번역 성능을 향상시켰으며, 트랜스포머-베이스는 거의 두 배 빠른 훈련 속도로 트랜스포머-빅 수준의 성능을 달성한다.

ABSTRACT

Multi-head attention is appealing for the ability to jointly attend to information from different representation subspaces at different positions. In this work, we introduce a disagreement regularization to explicitly encourage the diversity among multiple attention heads. Specifically, we propose three types of disagreement regularization, which respectively encourage the subspace, the attended positions, and the output representation associated with each attention head to be different from other heads. Experimental results on widely-used WMT14 English-German and WMT17 Chinese-English translation tasks demonstrate the effectiveness and universality of the proposed approach.

연구 동기 및 목표

  • 트랜스포머에서 다중 헤드 어텐션 헤드 간의 명시적 다양성 강제 조건 부족 문제를 해결하기 위해.
  • 각 어텐션 헤드가 서로 다른 특징을 학습하도록 유도함으로써 신경 기계적 번역 성능을 향상시키기 위해.
  • 명시적으로 어텐션 헤드 간 불일치를 정규화함으로써 모델 일반화 및 효율성이 향상되는지 조사하기 위해.
  • 다양한 다중 헤드 어텐션 구성 요소에 대해 세 가지 별개의 불일치 정규화 유형의 효과를 평가하기 위해.
  • 불일치 정규화를 적용한 더 작은 모델(트랜스포머-베이스)이 더 큰 모델(트랜스포머-빅)과 유사한 성능을 내며 훨씬 더 빠른 훈련 속도를 달성할 수 있는지 보여주기 위해.

제안 방법

  • 하이퍼파ram터 λ=1.0로 제어되는 likelihood 손실과 불일치 정규화 항을 조합한 보조 훈련 목표를 도입한다.
  • 세 가지 유형의 불일치 정규화를 제안한다: 투영된 서브스페이스(V^i, V^j), 주목한 위치(어텐션 행렬의 원소별 곱셈을 통한), 출력 표현(O^i, O^j).
  • 서브스페이스, 주목한 위치, 출력 벡터 간의 상반된 유사도를 극대화하기 위해 코사인 거리를 불일치 측정 지표로 사용한다.
  • 다중 헤드 어텐션 메커니즘 내에서 정규화 항을 독립적 또는 조합적으로 적용한다.
  • 표준 트랜스포머 인코더-디코더 프레임워크를 사용하며, 추가적인 파라미터 없이 훈련 중에 불일치 정규화를 통합한다.
  • 해석 가능성 향상을 위해 불일치를 exp(D)로 측정하며, 높은 값(최대 1.0)은 헤드 간의 거의 수직 상태(다양성)를 나타낸다.

실험 결과

연구 질문

  • RQ1명시적으로 어텐션 헤드 간 불일치를 정규화하면 신경 기계적 번역 성능이 향상되는가?
  • RQ2다중 헤드 어텐션 메커니즘의 구성 요소 중에서 서브스페이스, 주목한 위치, 출력 표현 중 어느 것이 성능 향상에 가장 효과적인가?
  • RQ3불일치 정규화를 통해 더 작은 트랜스포머 모델(베이스)이 더 큰 모델(빅)과 유사한 성능을 달성할 수 있는가?
  • RQ4기본 다중 헤드 어텐션 헤드들이 동일한 위치에 주목하는 정도는 어느 정도이며, 이는 표현 다양성에 제한을 둔다?
  • RQ5불일차 정규화는 다양한 인코더 레이어에서 학습된 표현에 어떤 영향을 미치는가?

주요 결과

  • 불일치 정규화는 WMT14 영어-독일어 및 WMT17 중국어-영어 작업 모두에서 번역 성능을 일관되게 향상시킨다.
  • 불일치 정규화를 적용한 트랜스포머-베이스는 거의 두 배 빠른 훈련 속도로 트랜스포머-빅 수준의 성능을 달성한다.
  • 출력 불일치 정규화는 가장 높은 불일치 점수(exp(D) ≈ 0.997)를 기록하여, 헤드 간 출력 벡터가 거의 수직 상태임을 나타낸다.
  • 기본 다중 헤드 어텐션은 주목한 위치에서 최소한의 불일치(exp(D) = 0.007)를 보이며, 대부분의 헤드가 동일한 위치에 주목함을 시사한다.
  • 위치 기반 정규화는 서브스페이스나 출력에서 불일치를 크게 증가시키지 않으며, 이는 다른 항목과 조합했을 때의 효율성 부족을 설명한다.
  • 결과는 다중 헤드 어텐션이 주로 학습된 표현에 의해 헤드 간 차이를 인코딩하며, 위치 다양성에 대한 기존의 가정을 도전한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.