Skip to main content
QUICK REVIEW

[논문 리뷰] Pay Less Attention with Lightweight and Dynamic Convolutions

Felix Wu, Angela Fan|arXiv (Cornell University)|2019. 01. 29.
Natural Language Processing Techniques인용 수 322
한 줄 요약

본 논문은 경량 및 동적 합성곱을 self-attention의 효율적인 대안으로 제시하여 시퀀스 모델링에서 경쟁적이거나 우수한 성능을 달성하고, 번역, 언어 모델링, 요약에서 더 빠른 실행 시간으로 입증한다.

ABSTRACT

Self-attention is a useful mechanism to build generative models for language and images. It determines the importance of context elements by comparing each element to the current time step. In this paper, we show that a very lightweight convolution can perform competitively to the best reported self-attention results. Next, we introduce dynamic convolutions which are simpler and more efficient than self-attention. We predict separate convolution kernels based solely on the current time-step in order to determine the importance of context elements. The number of operations required by this approach scales linearly in the input length, whereas self-attention is quadratic. Experiments on large-scale machine translation, language modeling and abstractive summarization show that dynamic convolutions improve over strong self-attention models. On the WMT'14 English-German test set dynamic convolutions achieve a new state of the art of 29.7 BLEU.

연구 동기 및 목표

  • 시퀀스 모델에서 제곱 형태의 자기-주의에 대한 의존도를 줄이는 동기를 제시한다.
  • 깊이별 분리가능 구조와 소프트맥스 정규화 가중치를 갖는 경량 합성곱을 제안한다.
  • 시점별로 특정 커널을 생성하는 동적 합성곱을 도입한다.
  • 자기-주의 기준선과 비교하기 위한 기계 번역, 언어 모델링, 추상적 요약에 대해 평가한다.

제안 방법

  • LightConv 개발: 깊이 분리 가능하고, 소프트맥스 정규화된 가중치를 가지며, 가중치 공유를 하는 합성곱으로 고정된 컨텍스트 창에서 동작하는 LightConv를 개발한다.
  • DynamicConv 도입: 현재 입력으로부터 생성되는 시점 의존 커널로, 시간에 따라 가중치를 다르게 하는 컨텍스트를 가능하게 한다.
  • Transformer Big에 비견되는 인코더-디코더 아키텍처에서 GLU 기반 블록과 잔차 연결을 사용하고, self-attention을 LightConv 또는 DynamicConv로 대체한다.
  • 번역, 언어 모델링, 요약 데이터셋 전반에 걸쳐 표준 NLP 목표 및 하이퍼파라미터로 학습한다.
  • WMT En-De, WMT En-Fr, IWSLT De-En, WMT Zh-En, Billion word language modeling, 및 CNN-DailyMail 요약에서 평가한다.

실험 결과

연구 질문

  • RQ1가볍고 고정 가중치를 가진 합성곱이 대규모 번역 벤치마크에서 self-attention의 성능과 일치하거나 이를 능가할 수 있는가?
  • RQ2시간-단계 의존 커널이 고정된 경량 합성곱보다 추가 이점을 제공하는가?
  • RQ3정확도를 희생하지 않으면서 런타임 측면에서 경량 및 동적 합성곱이 self-attention보다 더 효율적인가?
  • RQ4이러한 접근법들이 언어 모델링 및 추상적 요약 작업에서 잘 일반화되는가?
  • RQ5이 방법들이 더 긴 시퀀스와 더 큰 어휘 집합에서도 어떻게 확장되는가?

주요 결과

  • LightConv는 WMT En-De 및 En-Fr에서 경쟁력 있는 BLEU를 달성하며 En-Fr에서 최첨단에 비해 0.1 BLEU포인트 차로 뒤처진다.
  • DynamicConv는 WMT En-De에서 알려진 최고 성능을 0.4 BLEU 만큼 능가하고 En-Fr에서도 최첨단과 일치한다.
  • IWSLT De-En 및 WMT Zh-En에서 경량 및 동적 합성곱은 self-attention 기준선을 능가하거나 이를 일치시킨다.
  • DynamicConv는 강력한 self-attention 기준선보다 약 20% 빠른 런타임을 제공하면서 정확도를 유지하거나 향상시킨다.
  • Billion Word 코퍼스의 언어 모델링에서 DynamicConv는 self-attention 기준선만큼 잘 수행하거나 그보다 낫다.
  • CNN-DailyMail 요약에서 LightConv와 DynamicConv가 self-attention 기준선을 능가하며, DynamicConv가 가장 높은 Rouge 점수를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.