Skip to main content
QUICK REVIEW

[논문 리뷰] Accelerating Neural Transformer via an Average Attention Network

Biao Zhang, Deyi Xiong|arXiv (Cornell University)|2018. 05. 02.
Natural Language Processing Techniques참고 문헌 14인용 수 24
한 줄 요약

이 논문은 신경망 트랜스포머의 디코더에서의 디코딩 단계를 가속화하기 위해 평균 어텐션 네트워크(AAN)를 제안한다. 이는 디코더의 자기어텐션 메커니즘을 두 층으로 구성된 구조로 대체함으로써 이루어지며, 누적된 이력 집계를 위한 평균층과 표현력 향상을 위한 게이팅층이다. 학습 시 마스킹 기법을 사용하여 전체 병렬 처리를 가능하게 하고, 추론 시 동적 프로그래밍을 적용하여 순차적 생성을 피함으로써, 12개의 WMT17 번역 작업 전반에서 성능 저하가 거의 없이 4배 이상 빠른 디코딩을 달성한다.

ABSTRACT

With parallelizable attention networks, the neural Transformer is very fast to train. However, due to the auto-regressive architecture and self-attention in the decoder, the decoding procedure becomes slow. To alleviate this issue, we propose an average attention network as an alternative to the self-attention network in the decoder of the neural Transformer. The average attention network consists of two layers, with an average layer that models dependencies on previous positions and a gating layer that is stacked over the average layer to enhance the expressiveness of the proposed attention network. We apply this network on the decoder part of the neural Transformer to replace the original target-side self-attention model. With masking tricks and dynamic programming, our model enables the neural Transformer to decode sentences over four times faster than its original version with almost no loss in training time and translation performance. We conduct a series of experiments on WMT17 translation tasks, where on 6 different language pairs, we obtain robust and consistent speed-ups in decoding.

연구 동기 및 목표

  • 디코더에서 자기회귀적이고 자기어텐션 메커니즘이 적용되는 트랜스포머의 느린 디코딩 속도 문제를 해결하기 위해.
  • 학습 효율성과 높은 성능을 유지하면서 추론 속도를 극적으로 향상시키기 위해.
  • 장거리 의존성 모델링을 유지하면서도 경량이고 병렬 처리가 가능한 자기어텐션의 대체 구조를 개발하기 위해.
  • RNN과 유사하게 이전의 은닉 상태만을 사용하는 효율적인 순차적 디코딩을 가능하게 하되, 반복적 구조의 성능 저하 문제를 피하기 위해.

제안 방법

  • 누적 평균을 이전 은닉 상태에 대해 계산하는 평균층과 표현력 향상을 위한 게이팅층을 포함한 두 층으로 구성된 평균 어텐션 네트워크(AAN)를 제안한다.
  • 학습 시 자기어텐션의 인과적 어텐션 패턴을 시뮬레이션하기 위해 마스킹 기법을 사용하여 전체 병렬 처리를 가능하게 한다.
  • 추론 시 동적 프로그래밍을 적용하여 순차적 생성을 피하고 출력을 병렬로 계산한다.
  • 기존 트랜스포머 디코더의 타겟 측 자기어텐션을 AAN으로 교체하면서 인코더는 그대로 유지한다.
  • 최소한의 아키텍처 변경으로 표준 트랜스포머 아키텍처에 AAN을 통합한다.

실험 결과

연구 질문

  • RQ1자기어텐션을 대체할 수 있는 단순한 평균 기반 어텐션 메커니즘이 트랜스포머 디코더에서 번역 품질을 저하시키지 않고 적용될 수 있는가?
  • RQ2AAN은 학습 효율성과 모델 성능를 유지하면서 얼마나 빠른 디코딩을 가능하게 하는가?
  • RQ3다양한 언어 쌍, 언어적 복잡성 및 학습 데이터 스케일이 다른 환경에서도 AAN이 일반화 가능한가?
  • RQ4AAN의 성능 향상 효과가 다양한 시퀀스 길이와 번역 방향에 걸쳐 일관되게 유지되는가?

주요 결과

  • AAN 모델은 WMT17 벤치마크의 모든 12개 언어 쌍에서 원본 트랜스포머보다 4배 이상 빠른 디코딩 속도를 달성한다.
  • En→Tr 번역 작업에서 모델은 문장당 단지 0.02968초 만에 디코딩을 완료하여 원본 트랜스포머의 약 1/7 수준의 시간을 차지한다.
  • 번역 성능는 거의 동일하게 유지되며, 트랜스포머 대비 En→Tr 방향에서 BLEU 점수 0.53 포인트의 감소만을 보였다.
  • 모든 언어 쌍, 특히 저자원 언어인 En→Lv 및 En→Cs와 같은 경우에도 일관된 성능 향상이 나타나 언어에 관계없는 이점임을 시사한다.
  • 긴 문장에서도 강력한 성능 유지를 보이며, 단순함에도 불구하고 효과적인 장거리 의존성 모델링이 가능함을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.