QUICK REVIEW

[논문 리뷰] Efficient Transformers: A Survey

Yi Tay, Mostafa Dehghani|arXiv (Cornell University)|2020. 09. 14.

Anomaly Detection Techniques and Applications인용 수 220

한 줄 요약

효율성 중심의 Transformer 변형(X-폼)들가 self-attention 비용을 줄이고 핵심 기술로 모델을 분류하며 교차 도메인 적용 가능성과 트레이드오프를 논의하는 포괄적 고찰.

ABSTRACT

Transformer model architectures have garnered immense interest lately due to their effectiveness across a range of domains like language, vision and reinforcement learning. In the field of natural language processing for example, Transformers have become an indispensable staple in the modern deep learning stack. Recently, a dizzying number of "X-former" models have been proposed - Reformer, Linformer, Performer, Longformer, to name a few - which improve upon the original Transformer architecture, many of which make improvements around computational and memory efficiency. With the aim of helping the avid researcher navigate this flurry, this paper characterizes a large and thoughtful selection of recent efficiency-flavored "X-former" models, providing an organized and comprehensive overview of existing work and models across multiple domains.

연구 동기 및 목표

효율적 Transformer 모델과 그 기술적 혁신의 체계적인 분류 체계를 제공한다.
어텐션 및 전반적인 Transformer 계산(메모리, FLOPs)을 줄이는 주요 접근법 요약한다.
대표 모델과 그 사용 사례 및 언어와 비전 과제에서의 트레이드오프를 강조한다.

제안 방법

핵심 기술별로 효율적 Transformer를 분류한다(고정 패턴, 패턴의 조합, 학습 가능한 패턴, 신경 메모리, 저랭크, 커널, 재귀, 다운샘플링, 희소/조건부 계산).
주요 모델의 대표적인 워크스루를 자세히 설명한다(메모리 압축 Transformer, 이미지 트랜스포머, 세트 트랜스포머, 희소 트랜스포머, 리포머, Linformer, Performer 등).
실용적 고려사항을 논의한다: 로컬 대 글로벌 어텐션이 필요한 경우, 인코더/디코더 사용, 정확도 대 효율성 트레이드오프.

실험 결과

연구 질문

RQ1Transformer의 자기 자신(attention) 비용을 NLP와 비전 전반에서 효과적으로 감소시키는 아키텍처와 기법은 무엇인가?
RQ2다양한 효율성 패러다임(희소성, 메모리, 저랭크, 커널, 재발생, 다운샘플링)이 복잡도, 적용 가능성 및 성능 측면에서 어떻게 비교되는가?
RQ3장문 시퀀스 처리 및 온디바이스 배치를 위한 대표 모델과 그 트레이드오프는 무엇인가?
RQ4효율적 Transformer가 도메인 및 모달리티 간에 일반화되는 방식은?

주요 결과

Model / Paper	Complexity	Decode	Class
Memory Compressed Transformer (Liu et al., 2018)	O(b^2) per block; overall O(b·n)	Yes	FP+M
Image Transformer (Parmar et al., 2018)	O(n·m)	Yes	FP
Set Transformer (Lee et al., 2019)	O(kN)	No	M
Transformer-XL (Dai et al., 2019)	O(N^2)	Yes	RC
Sparse Transformer (Child et al., 2019)	O(N√N)	Yes	FP
Reformer (Kitaev et al., 2020)	O(N log N)	Yes	LP
Routing Transformer (Roy et al., 2020)	O(N√N)	Yes	LP
Axial Transformer (Ho et al., 2019)	O(N√N)	Yes	FP
Compressive Transformer (Rae et al., 2020)	O(N^2)	Yes	RC
Sinkhorn Transformer (Tay et al., 2020b)	O(B^2)	Yes	LP
Longformer (Beltagy et al., 2020)	O(n(k+m))	Yes	FP+M
ETC (Ainslie et al., 2020)	O(N_g^2 + N N_g)	No	FP+M
Synthesizer (Tay et al., 2020a)	O(N^2)	Yes	LR+LP
Performer (Choromanski et al., 2020a)	O(N)	Yes	KR
Funnel Transformer (Dai et al., 2020)	O(N^2)	Yes	FP+DS
Linformer (Wang et al., 2020c)	O(N)	No	LR
Linear Transformers (Katharopoulos et al., 2020)	O(N)	Yes	KR
Big Bird (Zaheer et al., 2020)	O(N)	No	FP+M
Random Feature Attention (Peng et al., 2021)	O(N)	Yes	KR
Long Short Transformers (Zhu et al., 2021)	O(kN)	Yes	FP + LR
Poolingformer (Zhang et al., 2021)	O(N)	No	FP+M
Nystromformer (Xiong et al., 2021b)	O(kN)	No	M+DS
Perceiver (Jaegle et al., 2021)	O(kN)	Yes	M+DS
Clusterformer (Wang et al., 2020b)	O(N log N)	No	LP
Luna (Ma et al., 2021)	O(kN)	Yes	M
TokenLearner (Ryoo et al., 2021)	O(k^2)	No	DS
Adaptive Sparse Transformer (Correia et al., 2019)	O(N^2)	Yes	Sparse
Product Key Memory (Lample et al., 2019)	O(N^2)	Yes	Sparse
Switch Transformer (Fedus et al., 2021)	O(N^2)	Yes	Sparse
ST-MoE (Zoph et al., 2022)	O(N^2)	Yes	Sparse
GShard (Lepikhin et al., 2020)	O(N^2)	Yes	Sparse
Scaling Transformers (Jaszczur et al., 2021)	O(N^2)	Yes	Sparse
GLaM (Du et al., 2021)	O(N^2)	Yes	Sparse

효율적 Transformer는 메모리 및/또는 계산을 줄이기 위해 로컬/블록 어텐션, 메모리 토큰, 저랭크 프로젝션, 커널 기반 근사, 재발생, 다운샘플링, 그리고 전문가 혼합과 같은 전략 스펙트럼을 활용한다.
방법을 고정 패턴, 패턴의 조합, 학습 가능한 패턴, 신경 메모리, 저랭크, 커널, 재발생, 다운샘플링, 희소/조건부 계산으로 묶은 분류 체계는 빠르게 진화하는 연구를 정리하는 데 도움이 된다.
여러 모델이 서브-제곱 또는 선형 어텐션 복잡도에 도달한다(예: Linformer, Performer, Longformer, Reformer, 희소 트랜스포머 계열, GShard/Switch Transformer이 희소 임계에서).
전역 맥락을 유지하는 것과 계산 감소 사이에는 트레이드오프가 있으며 로컬 어텐션은 종종 일부 글로벌 정보를 손실한다.
일부 접근은 여러 기술을 혼합한다(예: 로컬과 메모리 결합, 또는 어텐션과 함께 다운샘플링)로 커버리지와 효율성의 균형을 맞춘다.
논문에는 다양한 모델의 복잡도, 디코딩 능력, 및 효율 기술 분류를 요약한 상세 표(Table 1)가 포함되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.