[논문 리뷰] Synthesizer: Rethinking Self-Attention in Transformer Models
Synthesizer는 dot-product self-attention을 합성 어텐션으로 대체하여 토큰-토큰 간 상호작용 없이 정렬(alignment)을 학습합니다. Random/dense 변형은 태스크 전반에서 경쟁력이 있으며 일부 베이스라인보다 성능이 우수할 수 있으며, 합성 어텐션과 dot-product 어텐션을 결합하면 추가 이득이 생깁니다.
The dot product self-attention is known to be central and indispensable to state-of-the-art Transformer models. But is it really required? This paper investigates the true importance and contribution of the dot product-based self-attention mechanism on the performance of Transformer models. Via extensive experiments, we find that (1) random alignment matrices surprisingly perform quite competitively and (2) learning attention weights from token-token (query-key) interactions is useful but not that important after all. To this end, we propose extsc{Synthesizer}, a model that learns synthetic attention weights without token-token interactions. In our experiments, we first show that simple Synthesizers achieve highly competitive performance when compared against vanilla Transformer models across a range of tasks, including machine translation, language modeling, text generation and GLUE/SuperGLUE benchmarks. When composed with dot product attention, we find that Synthesizers consistently outperform Transformers. Moreover, we conduct additional comparisons of Synthesizers against Dynamic Convolutions, showing that simple Random Synthesizer is not only $60\%$ faster but also improves perplexity by a relative $3.5\%$. Finally, we show that simple factorized Synthesizers can outperform Linformers on encoding only tasks.
연구 동기 및 목표
- Transformers에서 dot-product self-attention의 필요성에 의문을 제기한다.
- Synthetic(토큰-의존적이지 않은) 어텐션이 언어 태스크 전반에서 어떤 성능을 보이는지 조사한다.
- 다양한 Synthesizer 변형(Dense, Random, factorized, mixtures)을 제안하고 평가한다.
- Synthetic 어텐션이 전통적 dot-product 어텐션 및 빠른 Transformer 대안과 어떻게 결합되는지 평가한다.
제안 방법
- 합성 어텐션 정의: QK 가중치 계산을 합성 함수 F로 대체하여 정렬 행렬을 출력한다.
- Dense Synthesizer 구현: 각 토큰이 이차 계층 퍼포션드 네트워크를 통해 시퀀스 길이 벡터로 투영된다.
- Random Synthesizer 정의: 고정되거나 학습 가능한 랜덤 정렬 행렬 R과 softmax 정규화를 사용한다.
- 매개변수 수를 줄이기 위한 인수분해 변형( Dense 및 Random) 및 여러 합성기를 결합하는 Mixture 변형을 도입한다.
- MT(WMT En-De/En-Fr), 언어 모델링(LM1B), 텍스트 생성, GLUE/SuperGLUE 벤치마크에서 변형을 평가하고 Dinamic Convolutions 및 Linformers와 비교한다.
실험 결과
연구 질문
- RQ1dot-product self-attention이 주요 NLP 태스크에서 Transformer 성능에 필수적인가?
- RQ2토큰-토큰 상호작용과 무관한 합성 어텐션 메커니즘이 vanilla Transformer를 상회하거나 동등하게 만들 수 있는가?
- RQ3Synthetic과 dot-product 어텐션의 혼합이 여러 태스크에서 견고한 이점을 제공하는가?
- RQ4랜덤 또는 인수분해된 합성 어텐션 변형이 Linformers 및 Dynamic Convolutions와 같은 빠른 Transformer 대안과 비교해 어떤 성능 차이를 보이는가?
주요 결과
- Random Synthesizer는 WMT 2014 English-German에서 27.27 BLEU, English-French 번역에서 41.12 BLEU를 달성합니다.
- Random Synthesizer는 LM1B에서 vanilla Transformer에 비해 언어 모델링 퍼플렉시티가 1–2 포인트 이내로 경쟁력을 가질 수 있습니다.
- 간단한 Random Synthesizers는 MLM 설정에서 퍼플렉시티 면에서 Dynamic Convolutions보다 상대적으로 약 3.5% 빠르고 약 60% 빠릅니다.
- Factorized Random Synthesizers는 인코딩 전용 태스크에서 Linformers보다 우수한 성능을 보일 수 있습니다.
- 합성 어텐션과 dot-product 어텐션을 결합하는 Mixture 변형은 여러 태스크에서 Transformer 대비 일관된 성능 향상을 제공합니다.
- 대화 생성에서 dot-product 어텐션은 성능을 악화시킬 수 있는 반면, Synthesizers(D)와 (R)는 개선을 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.