QUICK REVIEW

[논문 리뷰] An Attention Free Transformer

Shuangfei Zhai, Walter Talbott|arXiv (Cornell University)|2021. 05. 28.

Advanced Neural Network Applications참고 문헌 26인용 수 42

한 줄 요약

Attention Free Transformer (AFT) 소개. 도트곱 자기주의를 비-어텐션, 선형 복잡도 모듈로 대체하고, AFT-local 및 AFT-conv과 같이 글로벌 연결성을 지역성이나 컨볼루션 가중치 공유로 보존하는 변형을 제시한다.

ABSTRACT

We introduce Attention Free Transformer (AFT), an efficient variant of Transformers that eliminates the need for dot product self attention. In an AFT layer, the key and value are first combined with a set of learned position biases, the result of which is multiplied with the query in an element-wise fashion. This new operation has a memory complexity linear w.r.t. both the context size and the dimension of features, making it compatible to both large input and model sizes. We also introduce AFT-local and AFT-conv, two model variants that take advantage of the idea of locality and spatial weight sharing while maintaining global connectivity. We conduct extensive experiments on two autoregressive modeling tasks (CIFAR10 and Enwik8) as well as an image recognition task (ImageNet-1K classification). We show that AFT demonstrates competitive performance on all the benchmarks, while providing excellent efficiency at the same time.

연구 동기 및 목표

쿼드라틱 어텐션 비용으로 인해 확장 가능한 트랜스포머의 필요성을 제시한다.
도트프로덕트 어텐션 없이 글로벌 상호작용을 유지하는 플러그인 어텐션 프리 모듈을 제안한다.
AFT-local 및 AFT-conv를 도입하여 지역성 및 공간 가중치 공유를 활용하면서도 글로벌 연결성을 유지한다.
이미지 자동회귀 모델링, 언어 모델링, 이미지 분류에서 경쟁력 있는 성능과 효율성을 시연한다.

제안 방법

표준 다중 헤드 어텐션을 학습된 위치 편향으로 Q, K, V 간의 상호작용으로 대체하고, 결과를 쿼리와 원소별 곱셈으로 결합한다.
AFT를 Y_t = sigma_q(Q_t) ⊙ [ sum_{t'} exp(K_{t'}+w_{t,t'}) ⊙ V_{t'} / sum_{t'} exp(K_{t'}+w_{t,t'}) ], w는 학습된 쌍위치 편향이다.
매개변수 수를 줄이기 위해 w_{t,t'} = u_t^T v_{t'} 로 팩터라이즈된 파라미터화 제공
AFT-local(로컬 w를 s-제한 창으로) 및 AFT-conv(공간 가중치 공유, CNN과 유사) 변형 도입
AFT-simple을 위치 편향이 없는 매우 효율적인 극단 변형으로 제공(s=0)
훈련 안정성과 성능 개선을 위한 파라미터화 및 재파라미터화(예: w-팩터화, w 정규화) 논의

실험 결과

연구 질문

RQ1어텐션 프리 메커니즘이 autoregressive 이미지 모델링, 언어 모델링, 이미지 분류에서 트랜스포머와 대등하거나 능가할 수 있는가?
RQ2지역성 및 가중치 공유 변형(AFT-local, AFT-conv)이 글로벌 연결성을 유지하면서 효율성과 정확성에서 실제 이점을 제공하는가?
RQ3위치 편향 매개변수의 팩터화가 모델 성능과 매개변수 수에 어떤 영향을 미치는가?
RQ4AFT 변형의 계산 복잡도와 실제 런타임은 표준 및 다른 효율적 트랜스포머와 비교하여 어떤가?
RQ5AFT 변형이 기존 트랜스포머 아키텍처와 플러그인으로 통합될 수 있는가?

주요 결과

모델	L	d	h	학습 손실	테스트 손실	초당 이터	GB/GPU
PixelCNN	-	-	-	3.08	3.14	-	-
PixelCNN++	-	-	-	-	2.92	-	-
PixelSNAIL	-	-	-	-	2.85	-	-
Sparse Transformer strided	128	256	2	-	2.80	-	-
Image Transformer local2d	12	512	4	-	2.90	1.61	22.3
Transformer	12	512	4	2.90	2.88	1.35	30.6
Transformer	24	256	2	2.90	2.86	1.36	30.4
AFT-local-256	12	512	1	2.78	2.80	1.68	11.4
AFT-local-256	24	256	1	2.75	2.74	1.67	12.8
AFT-simple	24	256	1	2.82	2.89	2.15	9.5

AFT 변형은 CIFAR10, Enwik8, ImageNet-1K에서 경쟁력 있는 성능을 달성하면서도 효율성이 우수하다.
AFT-local은 CIFAR10 이미지 자동회귀 모델링에서 속도와 메모리 사용 면에서 여러 트랜스포머 기준선보다 우수하다.
팩터라이즈된 위치 편향 파라미터는 매개변수를 크게 줄이고 비팩터화된 w에 비해 성능을 개선한다.
AFT-simple은 더 큰 효율성으로 강력한 결과를 제공하며 일부 비전 트랜스포머 기준선에 근접하거나 능가한다.
AFT-conv은 기본 구성 대비 ImageNet Top-1 정확도를 크게 향상시키며 전역 연결성은 컨볼루션 스타일 가중치 공유로 유지된다.
모든 작업에 걸쳐 AFT 변형은 시퀀스 길이와 특징 차원에 대해 선형 또는 거의 선형 시간/공간 동작을 보여주며, 표준 어텐션의 이차 비용과 대비된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.