[論文レビュー] DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition
DilateFormerはSliding Window Dilated AttentionとMSDAを用いた多尺度拡張トランスフォーマを導入し、従来のSOTA vision transformersよりはるかに少ないFLOPsでImageNet、COCO、ADE20Kで高い性能を達成する。
As a de facto solution, the vanilla Vision Transformers (ViTs) are encouraged to model long-range dependencies between arbitrary image patches while the global attended receptive field leads to quadratic computational cost. Another branch of Vision Transformers exploits local attention inspired by CNNs, which only models the interactions between patches in small neighborhoods. Although such a solution reduces the computational cost, it naturally suffers from small attended receptive fields, which may limit the performance. In this work, we explore effective Vision Transformers to pursue a preferable trade-off between the computational complexity and size of the attended receptive field. By analyzing the patch interaction of global attention in ViTs, we observe two key properties in the shallow layers, namely locality and sparsity, indicating the redundancy of global dependency modeling in shallow layers of ViTs. Accordingly, we propose Multi-Scale Dilated Attention (MSDA) to model local and sparse patch interaction within the sliding window. With a pyramid architecture, we construct a Multi-Scale Dilated Transformer (DilateFormer) by stacking MSDA blocks at low-level stages and global multi-head self-attention blocks at high-level stages. Our experiment results show that our DilateFormer achieves state-of-the-art performance on various vision tasks. On ImageNet-1K classification task, DilateFormer achieves comparable performance with 70% fewer FLOPs compared with existing state-of-the-art models. Our DilateFormer-Base achieves 85.6% top-1 accuracy on ImageNet-1K classification task, 53.5% box mAP/46.1% mask mAP on COCO object detection/instance segmentation task and 51.1% MS mIoU on ADE20K semantic segmentation task.
研究の動機と目的
- Vision Transformersにおけるグローバル自己注意の二乗的コストと冗長性を低減する動機づけ、性能を維持または向上させる。
- 浅層のパッチ相互作用を分析して局所性とスパース性を明らかにし、効率的な注意機構の設計を導く。
- ピラミッド型トランスフォーマ内で局所および多尺度パッチ依存関係をモデル化するSWDAとMSDAを提案する。
- 浅い段階でMSDAを、深い段階でMHSAを組み合わせてDilateFormerバックボーンを構築し、分類・検出・セマンティックセグメンテーションタスクで評価する。
提案手法
- 各クエリパッチの周囲で拡張されたスライディングウィンドウ内のまばらに選択されたパッチ間で自己注意を行うSliding Window Dilated Attention (SWDA)を提案する。
- 注意領域内の多尺度依存関係を捉えるため、チャネルを異なる膨張率(例:1、2、3)を持つヘッドに分割してMulti-Scale Dilated Attention (MSDA)を導入する。
- 浅い段階でMSDAを用し、深い段階で標準のMHSAを用いるピラミッド型アーキテクチャを使用し、計算量を削減しつつ多尺度特徴抽出を可能にする。
- パッチ埋め込みと解像度制御のためにオーバーラップするトークナイザーとオーバーラップするダウンサンプルを採用し、入力解像度適応性のためDepth-wise畳み込みによるConditional Position Embedding (CPE)を適用する。
- Stage-wise構成を備えた三つのモデル variants (Tiny, Small, Base)を提供し、ImageNet-1K、COCO、ADE20Kの全領域で従来のVision Transformerに対する改善を報告する。
実験結果
リサーチクエスチョン
- RQ1Sliding Window Dilated Attention (SWDA)はグローバル自己注意と比べて計算コストを削減しつつ性能を保持または向上させるか?
- RQ2Multi-Scale Dilated Attention (MSDA)は追加のパラメータやコストなしで単一ブロック内の多尺度文脈を効果的に捉えられるか?
- RQ3ピラミッド型のDilateFormerバックボーンはImageNet-1K分類、COCO物体検出/セグメンテーション、ADE20Kセマンティックセグメンテーションで最新手法と比べてどうか?
- RQ4浅い段階でMSDAを使用し、深い段階でMHSAを使用する場合のビジョンタスクにおけるトレードオフはどのようになるか?
主な発見
- DilateFormerはImageNet-1Kで従来と同等の高精度を、はるかに少ないFLOPsで達成する(例:Dilate-Sは4.8 GFLOPsで83.3% top-1、Dilate-Bは10.0 GFLOPsで84.4%–85.6% top-1、設定による)。
- Token Labelingを用いると、Dilate-S⋆およびDilate-B⋆はImageNet-1Kでそれぞれ83.9%と84.9%のtop-1精度を達成し、同等コストのLV-ViT系より上回る。
- COCOの物体検出/インスタンスセグメンテーションでは、標準設定でDilate-Bは53.5% box mAPおよび46.1% mask mAPを達成し、別のスケジュールでは49.9/43.7を示す;ADE20KではDilate-Bが51.1% MS mIoU。
- DilateFormerは一部のSOTA Vision Transformerに比べてFLOPsを約70%削減しつつ、同等以上の性能を示すことでMSDAの効率性と局所性・スパース性に基づく設計の有効性を検証する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。