[論文レビュー] Refiner: Refining Self-attention for Vision Transformers
Refinerは視覚トランスフォーマーの自己注意マップを、注意拡張と分散局所注意によって直接改良し、データ効率を向上させ、パラメータが100M未満でSOTAを達成します。
Vision Transformers (ViTs) have shown competitive accuracy in image classification tasks compared with CNNs. Yet, they generally require much more data for model pre-training. Most of recent works thus are dedicated to designing more complex architectures or training methods to address the data-efficiency issue of ViTs. However, few of them explore improving the self-attention mechanism, a key factor distinguishing ViTs from CNNs. Different from existing works, we introduce a conceptually simple scheme, called refiner, to directly refine the self-attention maps of ViTs. Specifically, refiner explores attention expansion that projects the multi-head attention maps to a higher-dimensional space to promote their diversity. Further, refiner applies convolutions to augment local patterns of the attention maps, which we show is equivalent to a distributed local attention features are aggregated locally with learnable kernels and then globally aggregated with self-attention. Extensive experiments demonstrate that refiner works surprisingly well. Significantly, it enables ViTs to achieve 86% top-1 classification accuracy on ImageNet with only 81M parameters.
研究の動機と目的
- Vision Transformersのデータ効率ギャップを、アーキテクチャの変更やトレーニング技術だけでなく、自己注意機構の改良によって埋める。
- 自己注意マップの多様性を高め、局所パターンを取り入れて深いViTの過平滑化を抑制する。
- ViTブロックの標準的な自己注意を置換可能な、シンプルでドロップインなモジュール(refiner)を提案する。
- ImageNetでの改善を実証し、NLP(GLUE)タスクへの汎化を示す。
- トークン集約におけるグローバル注意とローカル文脈の相互作用に関する洞察を提供する。
提案手法
- 注意拡張を導入する:埋め込み次元を減らすことなく、マルチヘッド注意マップを高次元空間に射影して、注意マップの数を効果的に増やす。
- 線形射影 W_A を用いて A を H' 個の注意マップに拡張する。ここで H' > H。その後、拡張マップを統合し、最後に1x1射影で再度 H に縮約する。
- 拡張された注意マップに対してヘッドごとの空間畳み込みを適用し、局所パターンを強化してDistributed Local Attention (DLA)機構を生み出す。
- DLAがグローバル文脈モデリングと局所パターンの強化を組み合わせ、過平滑化を緩和し、トークンの識別性を高めることを示す。
- 素の自己注意ブロックをRefinerモジュールに置換してRefined-ViTを得る。ViTブロックへのドロップイン強化。
- DLA後の注意マップをさらに減らすことで計算コストを管理しつつ精度を維持することを示す。
実験結果
リサーチクエスチョン
- RQ1拡張と局所パターン強化による自己注意マップの改良は、ViTのデータ効率と精度を向上さえるか?
- RQ2分散ローカル注意は、さまざまなViTアーキテクチャで標準の自己注意より効果を発揮するか?
- RQ3注意マップを拡張してから縮約することがモデルの性能と収束速度に与える影響はどの程度か?
- RQ4Refinerの利得はNLPトランスフォーマ(例:BERT)や他の視覚言語、NLPベンチマークに転送されるか?
主な発見
- Refinerは同じ学習レシピの下でImageNetのViT-Baseをtop-1精度で1.7%向上させ、メモリオーバーヘッドはほとんどない。
- 注意拡張のみで、拡張比を1から6に上げると性能が向上し、top-1は82.3%から83.0%へ、収束も速くなる。
- Distributed Local Attention (DLA)は、ViTの様々な variante でtop-1精度を一貫して1.2%〜1.7%向上させ、サイズの増加は最小限。
- Refined-ViT-SはImageNetで83.6%のtop-1を達成(25M param)、同条件下でDeiT-Sを3.7%上回る。
- Refined-ViT-Mは384入力で85.6%トップ1(384次元、55Mパラメータ)に到達し、計算量を抑えつつCaiT-S36を0.2%上回る。Refined-ViT-448は100M未満のパラメータで86%を達成し、この種のモデルの新しいSOTAを樹立。
- RFC(受容野校正)を適用すると、微調整なしでいくつかのSOTAモデルのImageNet top-1を約0.11%追加で改善でき、Refinerの利得はNLP(GLUE)タスクにも拡張され、強力なベースラインに対して平均スコアを約1%改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。