Skip to main content
QUICK REVIEW

[論文レビュー] SepViT: Separable Vision Transformer

Wei Li, Xing Wang|arXiv (Cornell University)|Mar 29, 2022
Advanced Neural Network Applications被引用数 31
ひとこと要約

SepViT は窓トークンを用いた深度方向分離可能な自己注意とグループ化自己注意により、単一の Transformer ブロックで局所と全体の相互作用を実現し、同等の ViT と比べて低遅延で高い精度を達成します。

ABSTRACT

Vision Transformers have witnessed prevailing success in a series of vision tasks. However, these Transformers often rely on extensive computational costs to achieve high performance, which is burdensome to deploy on resource-constrained devices. To alleviate this issue, we draw lessons from depthwise separable convolution and imitate its ideology to design an efficient Transformer backbone, i.e., Separable Vision Transformer, abbreviated as SepViT. SepViT helps to carry out the local-global information interaction within and among the windows in sequential order via a depthwise separable self-attention. The novel window token embedding and grouped self-attention are employed to compute the attention relationship among windows with negligible cost and establish long-range visual interactions across multiple windows, respectively. Extensive experiments on general-purpose vision benchmarks demonstrate that SepViT can achieve a state-of-the-art trade-off between performance and latency. Among them, SepViT achieves 84.2% top-1 accuracy on ImageNet-1K classification while decreasing the latency by 40%, compared to the ones with similar accuracy (e.g., CSWin). Furthermore, SepViT achieves 51.0% mIoU on ADE20K semantic segmentation task, 47.9 AP on the RetinaNet-based COCO detection task, 49.4 box AP and 44.6 mask AP on Mask R-CNN-based COCO object detection and instance segmentation tasks.

研究の動機と目的

  • リソース制約のあるデバイス上での展開を念頭に、計算コストを削減する効率的な視覚トランスフォーマーを動機づける。
  • 窓内および窓間で局所-全体の相互作用を可能にするため、深さ方向分離可能な畳み込みに触発された軽量なトランスフォーマーボディーを設計する。
  • グローバルな窓レベルの相互作用を最小限のオーバーヘッドで実現するため、窓トークン埋め込みとグループ化自己注意を提案する。
  • 分類、セマンティックセグメンテーション、検出タスクにおける性能と遅延の最先端のトレードオフをデモンストレーションする。

提案手法

  • 窓内および窓間の相互作用を処理するため、深さ方向分離可能自己注意(DSA)と点wise自己注意(PSA)からなるDSAを導入する。
  • 各窓のグローバル表現を学習し窓間の注意を効率化する窓トークン埋め込みを作成する。
  • 複数の窓をまとめた大きなグループを形成することで、複数窓にまたがる長距離依存を捉えるグループ化自己注意(GSA)を拡張する。
  • 窓ベースの自己注意と条件付き位置エンコーディング(CPE)を備えた階層的なアーキテクチャにSepViTブロックを組み込み、Vision Transformerのバックボーンとする。
  • DSAとPSAの計算量解析を提供し、標準のMSAおよびSwin/Twinsブロックと比較する。
  • 調整可能な SepViT-T/S/B バリアントを提供し、ImageNet-1K、ADE20K、COCO(RetinaNet および Mask R-CNN)での結果を報告して、遅延-精度の向上を示す。

実験結果

リサーチクエスチョン

  • RQ1深さ方向分離可能自己注意と窓トークン埋め込みは、単一の Transformer ブロックで局所-全体の相互作用を、より少ない計算量で実現できるか?

主な発見

  • SepViTはベンチマーク全体で強力な精度-遅延のトレードオフを実現する。例として、ImageNet-1K における SepViT-B の top-1 が 84.2% で、同等精度のピアより遅延が有利。
  • ImageNet-1K では、SepViT のバリアントが、同等の精度でスループット/遅延の点で複数の最先端 ViT を上回る。例として、SepViT-S/B は Swin-S/B を、FLOPs が低く推論が速い点で凌駕する。
  • セマンティックセグメンテーション(ADE20K)では、SepViT-T/S/B は Swin-T/S/B より高い mIoU を達成し、Twins に対しても競争力のある結果を示しつつ推論時間を短縮。
  • 物体検出およびインスタンスセグメンテーション(COCO、RetinaNet および Mask R-CNN)では、SepViT-T/S は複数のViTより高いAPを達成し、競争力のある遅延。SepViT-S も依然として強力な競争力を維持。
  • アブレーション実験により、学習可能な窓トークン(LWT)、深さ方向分離可能自己注意(DSSA)、およびグループ化自己注意(GSA)がそれぞれ性能向上に寄与し、DSSA+GSA+LWT の全構成が最良の結果を達成する。
  • 二ブロックパターン(Swin/Twins)と比較して、単一の SepViT ブロックはおおよそ半分の MACs を達成し、顕著なスピードアップをもたらす(例:SepViT ブロックで PyTorch ~60% 高速、TensorRT ~55% 高速)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。