Skip to main content
QUICK REVIEW

[논문 리뷰] Fastformer: Additive Attention Can Be All You Need

Chuhan Wu, Fangzhao Wu|arXiv (Cornell University)|2021. 08. 20.
Topic Modeling참고 문헌 27인용 수 78
한 줄 요약

Fastformer는 additive 주의(attention)를 활용해 글로벌 컨텍스트를 요약하고 키와 값과의 선형 시간 상호작용을 수행하는 효율적인 Transformer 변형을 제시하여 긴 시퀀스 모델링에서 복잡도를 줄이면서도 경쟁력 있는 성능을 달성한다.

ABSTRACT

Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.

연구 동기 및 목표

  • 긴 자기 주의의 2차 복잡도 때문에 효율적인 긴 시퀀스 Transformer의 필요성을 동기화한다.
  • Additive-attention 기반 아키텍처인 Fastformer를 제안하여 선형 시간 컨텍스트 모델링을 달성한다.
  • 분류, 추천, 요약 과제에서 Fastformer의 효율성과 경쟁력 있는 정확도를 시연한다.
  • Practical deployment를 안내하기 위한 상호작용 함수 및 매개변수 공유에 대한 분석을 제공한다.

제안 방법

  • 입력 임베딩을 각 주의(head)마다 세 개의 선형 투영을 통해 Q, K, V로 변환한다.
  • 합산적(attentive) 주의로 질의 행렬을 요약하여 글로벌 질의 벡터 q를 얻는다.
  • 각 키와의 상호작용을 q * k_i의 요소별 곱으로 형성된 p_i를 통해 계산한 뒤, p_i를 합산적 주의로 요약하여 글로벌 키 k를 얻는다.
  • 글로벌 키 k와 각 값 v_i 사이의 상호작용을 k * v_i의 요소별 곱으로 계산하고 선형 투영을 통해 r_i를 얻는다.
  • 변환된 r_i를 원래 질의 q에 더해 출력을 형성한다; 헤드를 쌓고 메모리 감소를 위해 필요에 따라 매개변수를 공유한다.

실험 결과

연구 질문

  • RQ1합산(attention) 기반의 글로벌 컨텍스트 모델링이 시퀀스 길이에 선형으로 확장되면서도 성능을 유지할 수 있는가?
  • RQ2글로벌 컨텍스트와 각 토큰 표현 간의 요소별 곱 상호작용이 합산/연결 방식보다 맥락 모델링을 향상시키는가?
  • RQ3Fastformer에서 매개변수 공유 전략이 속도, 메모리, 정확도에 미치는 영향은 무엇인가?
  • RQ4Fastformer가 다른 효율적 Transformer와 비교했을 때 감성/주제 분류, 뉴스 추천, 텍스트 요약에서 어떤 성능을 보이는가?

주요 결과

  • Fastformer는 표준 Transformer의 2차 복잡도 O(N^2·d)와 달리 선형 시간 복잡도 O(N·d)를 달성한다.
  • Fastformer는 Amazon, IMDB, MIND 과제에서 여러 효율적 Transformer에 비해 경쟁력 있거나 우수한 정확도 및 매크로-F 점수를 달성한다.
  • 뉴스 추천에서 Fastformer는 여러 베이스라인을 상회하고 PLM-NR 통합의 이점을 얻으며 앙상블은 MIND 리더보드에서 최상위 결과를 달성한다.
  • 텍스트 요약에서 Fastformer는 경쟁력 있는 ROUGE 점수를 산출하며 종종 다른 선형/희소 주의 Variants를 능가한다.
  • 바닐라 Transformer와 비교할 때 Fastformer는 학습 및 추론 속도에서 상당한 가속을 제공하며 강력한 성능을 유지한다.
  • 요소별 곱을 통한 상호작용 추상화가 더 풍부한 맥락 모델링을 위해 추가/연결보다 선호된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.