[論文レビュー] Pay Attention to MLPs
論文は gMLP を提案する。これは Spatial Gating Unit を備えた MLP ベースのアーキテクチャで、言語と視覚タスクにおいて Transformer の性能と同等を達成でき、データと計算量を増やすと Transformer とのスケーリングの均衡を示し、NLP のファインチューニング時には小さなアテンションが任意的に性能を高める。
Transformers have become one of the most important architectural innovations in deep learning and have enabled many breakthroughs over the past few years. Here we propose a simple network architecture, gMLP, based on MLPs with gating, and show that it can perform as well as Transformers in key language and vision applications. Our comparisons show that self-attention is not critical for Vision Transformers, as gMLP can achieve the same accuracy. For BERT, our model achieves parity with Transformers on pretraining perplexity and is better on some downstream NLP tasks. On finetuning tasks where gMLP performs worse, making the gMLP model substantially larger can close the gap with Transformers. In general, our experiments show that gMLP can scale as well as Transformers over increased data and compute.
研究の動機と目的
- NLP と視覚の分野で self-attention が Transformer 的成功に不可欠かを評価する。
- self-attention なしでトークン間の相互作用を可能にする MLP ベースの代替案(gMLP)を開発する。
- ImageNet および MLM タスクで gMLP を ViT/Transformer のベースラインと比較する。
- モデルサイズとデータレジームにおける gMLP と Transformer のスケーリング挙動を評価する。
- NLP ファインチューニング時に gMLP に tiny アテンションを加えることの役割を調査する。
提案手法
- チャネル投影と Spatial Gating Unit (SGU) を備えたブロックのスタックとして gMLP を構築し、乗法ゲートを介してトークン間の相互作用を強制する。
- SGU を s(Z)=Z ⊙ f_{W,b}(Z) と定義し、W をほぼゼロで初期化し、b をすべて 1 に設定して初期状態を恒等写像にする。
- Z を Z1, Z2 に分割して二経路ゲーティング(Z1 ⊙ f(Z2))を実装する。
- s(·) には空間的な depthwise 風の操作を用い、データから学習された局所性とカーネル形状を可能にする。
- 外部データを使わず ImageNet で gMLP を ViT/DeiT と比較する訓練を行い、DeiT に類似した正則化を用いる。
- BERT セットアップで MLM のために gMLP を事前学習・ファインチューニングし、困難性(perplexity)と下流タスクを Transformer ベースラインと比較する。
- Transformer と gMLP の間で perplexity を比較し、モデルサイズスケーリングを調査する。
- hybrid モデル(aMLP)を用いて tiny な single-head self-attention を gMLP に加え、文間整合性を要する NLP ファインチューニングの影響を評価する。
実験結果
リサーチクエスチョン
- RQ1視覚と言語モデルにおいて self-attention は強力な性能に不可欠か、それとも MLP ベースのアーキテクチャで十分か。
- RQ2gMLP は NLP における事前学習 perplexity と下流タスクの性能を Transformer と同等に達成できるか。
- RQ3視覚と NLP のベンチマークでデータと計算量の増加に伴い gMLP と Transformer はどうスケールするか。
- RQ4tiny アテンションモジュールを gMLP に追加することが、文間整列を要する NLP ファインチューニングタスクにどのような影響を与えるか。
- RQ5gMLP と Transformer ファミリーのパラメータ効率と精度の実用的なトレードオフはどうなるか。
主な発見
- gMLP は ImageNet において DeiT と同等の精度を、同様の訓練設定の下で達成し、あるバリアントではパラメータを 66% 減らして優れた他の MLP 系モデルよりも上回る。
- MLM 事前学習において、SGU を備える gMLP は Transformer に近い perplexity を達成し、 perplexity が自己注意の有無よりもモデル容量に追従することを示す。
- スケーリング実験では、深くて能力のある gMLP が Transformer の perplexity や GLUE ファインチューニングスコアを同等の容量で上回るか達成する可能性を示し、 perplexity とパラメータの間にべき乗法的傾向が観察される。
- tiny な単一ヘッド自己注意モジュール(aMLP)は、MNLI や SQuAD などの NLP ファインチューニングタスクを大幅に改善し、同等の容量で Transformer を上回る場合がある。
- Spacial Gating Unit は、GLU や SE ブロックに類似したゲーティング機構を用いてトークン間相互作用を可能にするが、静的な空間投影を使用することで非アテンション経路で高次のトークン相互作用を実現する。
- 学習済みの空間ウェイトの可視化は、gMLP が局所性と空間的不変性を学習でき、データ駆動の不規則な畳み込みをトークン間で効果的に実行することを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。