[論文レビュー] FasterViT: Fast Vision Transformers with Hierarchical Attention
FasterViTは階層的注意機構を備えたハイブリッドCNN–ViTアーキテクチャで、より高い画像スループットと競争力のある精度を実現し、視覚モデルの新たなパレート前線を形成します。キャリアトークンと窓付き局所注意を活用して、コストを抑えつつグローバルな相互作用を可能にします。
We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy and image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.
研究の動機と目的
- 高解像度のCVタスクに対して、効率的で高スループットなVision Transformerアーキテクチャの必要性を動機づける。
- FasterViTを紹介する。精度を犠牲にせずスループットに最適化されたハイブリッドCNN–ViT設計。
- 複雑さを低く抑えつつ窓間の通信をスケーラブルにする階層的注意機構を開発する。
- FasterViTの画像分類、物体検出、セマンティックセグメンテーションにおける有効性を実証する。
- 階層的注意機構が既存ネットワークのプラグアンドプレーモジュールとして機能することを示す。
提案手法
- 初期段階でCNNブロックを用い、後半段階でトランスフォーマーブロックを用いる4段階のハイブリッドアーキテクチャとしてFasterViTを提案する。
- キャリアトークンを用いて局所窓を要約し窓間相互作用を可能にする階層的注意機構(HAT)を導入する。
- 注意を2段階で計算する。専用キャリアトークンを用いた局所窓注意と、その後のキャリアトークン注意でグローバル情報を伝播する。
- 絶対的な2D位置偏差とSwinV2に触発された相対位置偏差を用いて、スケーラブルな入力解像度を実現する。
- 窓付き注意とキャリアトークンにより全体コストが入力解像度にほぼ線形に比例することを示す複雑さ分析を提供する。
- ImageNet-1K、MS COCO、ADE20Kでの広範な実験、ImageNet-21K事前学習を含めて検証する。

実験結果
リサーチクエスチョン
- RQ1階層的注意は高解像度入力に対して高スループットを維持しつつ、効果的な長距離モデリングを可能にするか?
- RQ2FasterViTアーキテクチャは、分類、検出、セグメンテーションタスク全体で、既存のViTおよびハイブリッドモデルよりも精度とスループットのトレードオフが優れているか?
- RQ3HATは既存のCNN–ViTアーキテクチャを改善する実用的なプラグアンドプレーモジュールか?
- RQ4大規模データセット(例:ImageNet-21K)で事前学習し、より高解像度でファインチューニングした場合、FasterViTはどのようにスケールするか?
主な発見
| Model | Image Size | Throughput (Img/Sec) | Top-1 (%) |
|---|---|---|---|
| FasterViT-0 | 224 | 5802 | 82.1 |
| FasterViT-1 | 224 | 4188 | 83.2 |
| FasterViT-2 | 224 | 3161 | 84.2 |
| FasterViT-3 | 224 | 1780 | 84.9 |
| FasterViT-4 | 224 | 849 | 85.4 |
- FasterViTは複数のモデルサイズでImageNet-1Kにおける画像スループットとTop-1精度の新しいパレート前線を達成する。
- FasterViT-2 から FasterViT-4 は、Swin および ConvNeXt のベースラインよりも大幅に高いスループットを示し、精度は等しいかそれ以上(例:FasterViT-2 は224入力でTop-1 84.2%、3161 Img/Sec)
- 階層的注意機構(HAT)は、アブレーションで示されるように、代替の注意設計(Twins、EdgeViT)と比較してスループットに対する精度を大幅に向上させる。
- ImageNet-21Kで事前学習し、ImageNet-1KでファインチューニングするとFasterViT-4は高いスループットと精度を達成する(例:Table 2 の384入力でTop-1 86.6%、36.6 GFlops、119.2 Img/Sec まで)。
- FasterViTは下流タスクで競争力のあるまたは優れた結果を提供し、MS COCOの物体検出/インスタンス分割およびADE20Kのセマンティックセグメンテーションで、同等のViTベースモデルよりも高いスループットを実現する。
- アブレーション研究は、HATの構成要素(CTs、CT注意、注意バイアス)が、高いスループットを維持しつつ精度を保つうえで重要であることを確認する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。