[論文レビュー] DAT++: Spatially Dynamic Vision Transformer with Deformable Attention
DAT++ は、ピラミッド型ビジョン・Transformer 内に可変形のマルチヘッド・アテンション機構を導入し、情報量の多い領域に焦点を当て、ImageNet、COCO、ADE20K で最先端の結果を達成します。
Transformers have shown superior performance on various vision tasks. Their large receptive field endows Transformer models with higher representation power than their CNN counterparts. Nevertheless, simply enlarging the receptive field also raises several concerns. On the one hand, using dense attention in ViT leads to excessive memory and computational cost, and features can be influenced by irrelevant parts that are beyond the region of interests. On the other hand, the handcrafted attention adopted in PVT or Swin Transformer is data agnostic and may limit the ability to model long-range relations. To solve this dilemma, we propose a novel deformable multi-head attention module, where the positions of key and value pairs in self-attention are adaptively allocated in a data-dependent way. This flexible scheme enables the proposed deformable attention to dynamically focus on relevant regions while maintains the representation power of global attention. On this basis, we present Deformable Attention Transformer (DAT), a general vision backbone efficient and effective for visual recognition. We further build an enhanced version DAT++. Extensive experiments show that our DAT++ achieves state-of-the-art results on various visual recognition benchmarks, with 85.9% ImageNet accuracy, 54.5 and 47.0 MS-COCO instance segmentation mAP, and 51.5 ADE20K semantic segmentation mIoU.
研究の動機と目的
- データ依存的にキー/バリューのサンプリング位置を適応させる可変形アテンション・モジュールを開発する。
- さまざまな視覚認識タスクに対応する、可変形アテンションを備えたスケーラブルなビジョン・バックボーン(DAT)を構築する。
- DAT を局所的知覚と畳み込みによる改良を組み込んだ DAT++ に拡張して性能を向上させる。
- ImageNet分類、MS-COCOの物体検出/インスタンスセグメンテーション、ADE20Kのセマンティックセグメンテーションで最先端の結果を示す。
提案手法
- 入力ごとにオフセット生成ネットワークを介して、変形したキー/バリューのサンプリング点の共有セットを学習する、可変形マルチヘッドアテンション(DMHA)を提案する。
- 一様格子上に参照点を生成し、クエリ特徴から学習可能なオフセットでそれらをオフセットし、双線形補間によって特徴をサンプリングして変形したキー/バリューを形成する。
- 空間認識のための変形した相対位置バイアスを加えた、変形した k/v を用いた q に基づくアテンションを計算する。
- サンプリングのため完全な密なキー/バリューを使用する代わりに、DMHA の複雑さを分析・比較し、標準アテンションに比べて線形に近いオーバーヘッドを示す。
- 重複したパッチ埋め込み、Local Perception Unit (LPU)、ConvFFN などの畳み込みモジュールを組み込み、DAT++ を形成する。
- 初期段階で局所アテンションブロックと可変形アテンションブロックを交互に配置する(Neighborhood Attention を局所演算子として使用)、最終段階では可変形アテンションが支配的とする。
実験結果
リサーチクエスチョン
- RQ1過度なメモリ/計算コストを伴うことなく、可変形アテンションを Vision Transformer に統合するにはどうすればよいか。
- RQ2データ依存のサンプリング位置を学習することは、分類、検出/セグメンテーションタスクで認識性能を向上させるか。
- RQ3DAT++ は ImageNet、COCO、ADE20K で最先端の ViT や CNN を上回る、あるいは同等にすることができるか。
- RQ4どのアーキテクチャ的改良(重ね合わせパッチ埋め込み、LPU、ConvFFN)が DAT++ の性能に最も寄与するか。
主な発見
- DAT++ は最も大きなモデルバリアント(DAT-B++)で ImageNet の Top-1 精度 85.9% を達成。
- DAT++ は MS-COCO インスタンスセグメンテーションで 54.5 bbox mAP および 47.0 mask mAP を達成。
- DAT++ は ADE20K のセマンティックセグメンテーションで 51.5 mIoU に到達。
- 可変形アテンション機構は、データ依存の情報量の多い領域への焦点を可能にしつつ、空間計算量を線形に近いまま維持する。
- DAT++ は overlapped patch embedding と畳み込みによる改良の恩恵を受け、局所的特徴のモデリングと位置情報の改善に寄与している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。