QUICK REVIEW

[論文レビュー] Efficient Transformers: A Survey

Yi Tay, Mostafa Dehghani|arXiv (Cornell University)|Sep 14, 2020

Anomaly Detection Techniques and Applications被引用数 220

ひとこと要約

自己注意コストを削減し、コア技術ごとにモデルを整理し、クロスドメイン適用性とトレードオフを論じる効率重視の Transformer バリエーション（X-formers）の網羅的調査。

ABSTRACT

Transformer model architectures have garnered immense interest lately due to their effectiveness across a range of domains like language, vision and reinforcement learning. In the field of natural language processing for example, Transformers have become an indispensable staple in the modern deep learning stack. Recently, a dizzying number of "X-former" models have been proposed - Reformer, Linformer, Performer, Longformer, to name a few - which improve upon the original Transformer architecture, many of which make improvements around computational and memory efficiency. With the aim of helping the avid researcher navigate this flurry, this paper characterizes a large and thoughtful selection of recent efficiency-flavored "X-former" models, providing an organized and comprehensive overview of existing work and models across multiple domains.

研究の動機と目的

効率的な Transformer モデルとその技術革新の体系的な分類法を提供する。
注意機構の削減と Transformer 全体の計算コスト（メモリ、FLOPs）を削減する主要なアプローチを要約する。
代表的なモデルとその用途、言語・視覚タスクに跨るトレードオフを強調する。

提案手法

コア技術ごとに効率的な Transformer を分類する（Fixed Patterns、Combination of Patterns、Learnable Patterns、Neural Memory、Low-Rank、Kernels、Recurrence、Downsampling、Sparse/Conditional Computation）。
主要モデルの代表的な解説（Memory Compressed Transformer、Image Transformer、Set Transformer、Sparse Transformers、Reformer、Linformer、Performers など）を詳述する。
実務的な考慮点を議論する：局所的な注意と全体的な注意のどちらが必要か、エンコーダ/デコーダの使用、精度と効率のトレードオフ。

実験結果

リサーチクエスチョン

RQ1NLPおよびビジョン全体で、自己注意の二乗コストを効果的に削減するアーキテクチャと技術はどれか？
RQ2スパース性、メモリ、低秩、カーネル、再帰、ダウンサンプリングといった異なる効率性パラダイムは、複雑性、適用性、性能の観点でどう比較されるか？
RQ3長いシーケンス処理とオンデバイス展開における代表的なモデルとそれらのトレードオフは何か？
RQ4効率的な Transformer はドメインやモダリティを超えてどのように一般化するか？

主な発見

モデル / 論文	複雑さ	デコード	分類
Memory Compressed Transformer (Liu et al., 2018)	O(b^2) per block; overall O(b·n)	Yes	FP+M
Image Transformer (Parmar et al., 2018)	O(n·m)	Yes	FP
Set Transformer (Lee et al., 2019)	O(kN)	No	M
Transformer-XL (Dai et al., 2019)	O(N^2)	Yes	RC
Sparse Transformer (Child et al., 2019)	O(N√N)	Yes	FP
Reformer (Kitaev et al., 2020)	O(N log N)	Yes	LP
Routing Transformer (Roy et al., 2020)	O(N√N)	Yes	LP
Axial Transformer (Ho et al., 2019)	O(N√N)	Yes	FP
Compressive Transformer (Rae et al., 2020)	O(N^2)	Yes	RC
Sinkhorn Transformer (Tay et al., 2020b)	O(B^2)	Yes	LP
Longformer (Beltagy et al., 2020)	O(n(k+m))	Yes	FP+M
ETC (Ainslie et al., 2020)	O(N_g^2 + N N_g)	No	FP+M
Synthesizer (Tay et al., 2020a)	O(N^2)	Yes	LR+LP
Performer (Choromanski et al., 2020a)	O(N)	Yes	KR
Funnel Transformer (Dai et al., 2020)	O(N^2)	Yes	FP+DS
Linformer (Wang et al., 2020c)	O(N)	No	LR
Linear Transformers (Katharopoulos et al., 2020)	O(N)	Yes	KR
Big Bird (Zaheer et al., 2020)	O(N)	No	FP+M
Random Feature Attention (Peng et al., 2021)	O(N)	Yes	KR
Long Short Transformers (Zhu et al., 2021)	O(kN)	Yes	FP + LR
Poolingformer (Zhang et al., 2021)	O(N)	No	FP+M
Nystromformer (Xiong et al., 2021b)	O(kN)	No	M+DS
Perceiver (Jaegle et al., 2021)	O(kN)	Yes	M+DS
Clusterformer (Wang et al., 2020b)	O(N log N)	No	LP
Luna (Ma et al., 2021)	O(kN)	Yes	M
TokenLearner (Ryoo et al., 2021)	O(k^2)	No	DS
Adaptive Sparse Transformer (Correia et al., 2019)	O(N^2)	Yes	Sparse
Product Key Memory (Lample et al., 2019)	O(N^2)	Yes	Sparse
Switch Transformer (Fedus et al., 2021)	O(N^2)	Yes	Sparse
ST-MoE (Zoph et al., 2022)	O(N^2)	Yes	Sparse
GShard (Lepikhin et al., 2020)	O(N^2)	Yes	Sparse
Scaling Transformers (Jaszczur et al., 2021)	O(N^2)	Yes	Sparse
GLaM (Du et al., 2021)	O(N^2)	Yes	Sparse

効率的な Transformer は、局所的/ブロック型注意、メモリトークン、低ランク投影、カーネル近似、再帰、ダウンサンプリング、混合専門家（Mixture-of-Experts）を含む多様な戦略を用いて、メモリと/または計算を削減する。
方法を固定パターン、パターンの組み合わせ、学習可能なパターン、ニューラルメモリ、低ランク、カーネル、再帰、ダウンサンプリング、および Sparse/Conditional Computation に分類するという分類法は、急速に進化する研究を整理するのに役立つ。
さまざまなモデルがサブ二乗または線形の注意計算量を達成している（例：Linformer、Performer、Longformer、Reformer、Sparse Transformer 系列、スパース領域の GShard/Switch Transformer など）。
グローバルな文脈の維持と計算削減の間にはトレードオフがあり、局所的な注意はしばしば一部のグローバル情報を犠牲にする。
一部のアプローチは複数の技術を組み合わせて、カバレッジと効率のバランスを取っている（例：局所とメモリの併用、または注意付きダウンサンプリング）。
本論文には、多くのモデルにわたる複雑さ、デコード能力、効率技術の分類を要約する詳細な表（Table 1）を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。