[논문 리뷰] Efficient Transformers: A Survey
효율성 중심의 Transformer 변형(X-폼)들가 self-attention 비용을 줄이고 핵심 기술로 모델을 분류하며 교차 도메인 적용 가능성과 트레이드오프를 논의하는 포괄적 고찰.
Transformer model architectures have garnered immense interest lately due to their effectiveness across a range of domains like language, vision and reinforcement learning. In the field of natural language processing for example, Transformers have become an indispensable staple in the modern deep learning stack. Recently, a dizzying number of "X-former" models have been proposed - Reformer, Linformer, Performer, Longformer, to name a few - which improve upon the original Transformer architecture, many of which make improvements around computational and memory efficiency. With the aim of helping the avid researcher navigate this flurry, this paper characterizes a large and thoughtful selection of recent efficiency-flavored "X-former" models, providing an organized and comprehensive overview of existing work and models across multiple domains.
연구 동기 및 목표
- 효율적 Transformer 모델과 그 기술적 혁신의 체계적인 분류 체계를 제공한다.
- 어텐션 및 전반적인 Transformer 계산(메모리, FLOPs)을 줄이는 주요 접근법 요약한다.
- 대표 모델과 그 사용 사례 및 언어와 비전 과제에서의 트레이드오프를 강조한다.
제안 방법
- 핵심 기술별로 효율적 Transformer를 분류한다(고정 패턴, 패턴의 조합, 학습 가능한 패턴, 신경 메모리, 저랭크, 커널, 재귀, 다운샘플링, 희소/조건부 계산).
- 주요 모델의 대표적인 워크스루를 자세히 설명한다(메모리 압축 Transformer, 이미지 트랜스포머, 세트 트랜스포머, 희소 트랜스포머, 리포머, Linformer, Performer 등).
- 실용적 고려사항을 논의한다: 로컬 대 글로벌 어텐션이 필요한 경우, 인코더/디코더 사용, 정확도 대 효율성 트레이드오프.
실험 결과
연구 질문
- RQ1Transformer의 자기 자신(attention) 비용을 NLP와 비전 전반에서 효과적으로 감소시키는 아키텍처와 기법은 무엇인가?
- RQ2다양한 효율성 패러다임(희소성, 메모리, 저랭크, 커널, 재발생, 다운샘플링)이 복잡도, 적용 가능성 및 성능 측면에서 어떻게 비교되는가?
- RQ3장문 시퀀스 처리 및 온디바이스 배치를 위한 대표 모델과 그 트레이드오프는 무엇인가?
- RQ4효율적 Transformer가 도메인 및 모달리티 간에 일반화되는 방식은?
주요 결과
| Model / Paper | Complexity | Decode | Class |
|---|---|---|---|
| Memory Compressed Transformer (Liu et al., 2018) | O(b^2) per block; overall O(b·n) | Yes | FP+M |
| Image Transformer (Parmar et al., 2018) | O(n·m) | Yes | FP |
| Set Transformer (Lee et al., 2019) | O(kN) | No | M |
| Transformer-XL (Dai et al., 2019) | O(N^2) | Yes | RC |
| Sparse Transformer (Child et al., 2019) | O(N√N) | Yes | FP |
| Reformer (Kitaev et al., 2020) | O(N log N) | Yes | LP |
| Routing Transformer (Roy et al., 2020) | O(N√N) | Yes | LP |
| Axial Transformer (Ho et al., 2019) | O(N√N) | Yes | FP |
| Compressive Transformer (Rae et al., 2020) | O(N^2) | Yes | RC |
| Sinkhorn Transformer (Tay et al., 2020b) | O(B^2) | Yes | LP |
| Longformer (Beltagy et al., 2020) | O(n(k+m)) | Yes | FP+M |
| ETC (Ainslie et al., 2020) | O(N_g^2 + N N_g) | No | FP+M |
| Synthesizer (Tay et al., 2020a) | O(N^2) | Yes | LR+LP |
| Performer (Choromanski et al., 2020a) | O(N) | Yes | KR |
| Funnel Transformer (Dai et al., 2020) | O(N^2) | Yes | FP+DS |
| Linformer (Wang et al., 2020c) | O(N) | No | LR |
| Linear Transformers (Katharopoulos et al., 2020) | O(N) | Yes | KR |
| Big Bird (Zaheer et al., 2020) | O(N) | No | FP+M |
| Random Feature Attention (Peng et al., 2021) | O(N) | Yes | KR |
| Long Short Transformers (Zhu et al., 2021) | O(kN) | Yes | FP + LR |
| Poolingformer (Zhang et al., 2021) | O(N) | No | FP+M |
| Nystromformer (Xiong et al., 2021b) | O(kN) | No | M+DS |
| Perceiver (Jaegle et al., 2021) | O(kN) | Yes | M+DS |
| Clusterformer (Wang et al., 2020b) | O(N log N) | No | LP |
| Luna (Ma et al., 2021) | O(kN) | Yes | M |
| TokenLearner (Ryoo et al., 2021) | O(k^2) | No | DS |
| Adaptive Sparse Transformer (Correia et al., 2019) | O(N^2) | Yes | Sparse |
| Product Key Memory (Lample et al., 2019) | O(N^2) | Yes | Sparse |
| Switch Transformer (Fedus et al., 2021) | O(N^2) | Yes | Sparse |
| ST-MoE (Zoph et al., 2022) | O(N^2) | Yes | Sparse |
| GShard (Lepikhin et al., 2020) | O(N^2) | Yes | Sparse |
| Scaling Transformers (Jaszczur et al., 2021) | O(N^2) | Yes | Sparse |
| GLaM (Du et al., 2021) | O(N^2) | Yes | Sparse |
- 효율적 Transformer는 메모리 및/또는 계산을 줄이기 위해 로컬/블록 어텐션, 메모리 토큰, 저랭크 프로젝션, 커널 기반 근사, 재발생, 다운샘플링, 그리고 전문가 혼합과 같은 전략 스펙트럼을 활용한다.
- 방법을 고정 패턴, 패턴의 조합, 학습 가능한 패턴, 신경 메모리, 저랭크, 커널, 재발생, 다운샘플링, 희소/조건부 계산으로 묶은 분류 체계는 빠르게 진화하는 연구를 정리하는 데 도움이 된다.
- 여러 모델이 서브-제곱 또는 선형 어텐션 복잡도에 도달한다(예: Linformer, Performer, Longformer, Reformer, 희소 트랜스포머 계열, GShard/Switch Transformer이 희소 임계에서).
- 전역 맥락을 유지하는 것과 계산 감소 사이에는 트레이드오프가 있으며 로컬 어텐션은 종종 일부 글로벌 정보를 손실한다.
- 일부 접근은 여러 기술을 혼합한다(예: 로컬과 메모리 결합, 또는 어텐션과 함께 다운샘플링)로 커버리지와 효율성의 균형을 맞춘다.
- 논문에는 다양한 모델의 복잡도, 디코딩 능력, 및 효율 기술 분류를 요약한 상세 표(Table 1)가 포함되어 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.