[論文レビュー] SPFormer: Enhancing Vision Transformer with Superpixel Representation
SPFormer は Superpixel Cross Attention を介して学習可能なスーパーピクセル表現を Vision Transformer に統合し、精度・効率・説明可能性を向上させる。ImageNet の大幅な改善とセグメンテーションの堅牢性向上を含む。
In this work, we introduce SPFormer, a novel Vision Transformer enhanced by superpixel representation. Addressing the limitations of traditional Vision Transformers' fixed-size, non-adaptive patch partitioning, SPFormer employs superpixels that adapt to the image's content. This approach divides the image into irregular, semantically coherent regions, effectively capturing intricate details and applicable at both initial and intermediate feature levels. SPFormer, trainable end-to-end, exhibits superior performance across various benchmarks. Notably, it exhibits significant improvements on the challenging ImageNet benchmark, achieving a 1.4% increase over DeiT-T and 1.1% over DeiT-S respectively. A standout feature of SPFormer is its inherent explainability. The superpixel structure offers a window into the model's internal processes, providing valuable insights that enhance the model's interpretability. This level of clarity significantly improves SPFormer's robustness, particularly in challenging scenarios such as image rotations and occlusions, demonstrating its adaptability and resilience.
研究の動機と目的
- 適応的なスーパーピクセルを活用してピクセル/パッチ表現間の橋渡しを行い、局所的なディテールを保持しつつ効率的なグローバルモデリングを可能にする。
- クロスアテンションを介してスーパーピクセル表現をViTに統合する trainable な end-to-end SPFormer アーキテクチャを開発する。
- スーパーピクセルベースの表現が ImageNet の精度を向上させ、解釈性と回転・遮蔽への堅牢性を高めることを示す。
- SPFormer を画像分類とセマンティックセグメンテーションのタスクで評価し、汎用性と効率を実証する。
提案手法
- ピクセルを意味的に一貫した領域に集約するスーパーピクセル表現を導入し、ピクセルと近隣のスーパーピクセルとの間の関連行列 A を定義する。
- Pixel-to-Superpixel (P2S) および Superpixel-to-Pixel (S2P) の二方向クロスアテンションを用いる Superpixel Cross Attention (SCA) を提案し、t 回の反復で S と A を逐次的に洗練させる。
- Convolution Position Embedding (CPE) を組み込み、ピクセルおよびスーパーピクセル特徴に空間情報を注入する。
- 高解像度の密なピクセルブランチを低解像度のスーパーピクセルブランチで補完するデュアルブランチ SPFormer アーキテクチャを採用し、効率を向上させる。
- 複数の semantically rich なスーパーピクセル表現を生成するマルチヘッド SCA を用い、その後 global context のために MHSA を適用し、1x1 異なる段階でコンテキストを伝搬させる形で段階的に洗練させる。
実験結果
リサーチクエスチョン
- RQ1適応的で学習可能なスーパーピクセル表現とクロスアテンションを組み合わせることで、固定パッチベースの ViT より ImageNet やセグメンテーションタスクで性能を上回るか。
- RQ2SCA モジュールはスーパーピクセルと意味境界の整合性を改善し、未知データへの一般化を高めるか。
- RQ3従来の ViT と比べて SPFormer は効率と回転・遮蔽への堅牢性の点でどうか。
- RQ4高解像度ピクセルブランチがディテールをどの程度保持し、スーパーピクセルブランチがグローバルな文脈をどの程度提供するか。
主な発見
| モデル | #Params | #FLOPs | Top-1 |
|---|---|---|---|
| SPFormer-S/56 | 22M | 0.5G | 72.3 |
| DeiT-T | 5M | 1.3G | 72.2 |
| SPFormer-T | 5M | 1.3G | 73.6 |
| DeiT-S/32 | 22M | 1.1G | 73.3 |
| SPFormer-S/32 | 22M | 1.2G | 76.4 |
| SPFormer-S/32 † | 22M | 1.3G | 77.9 |
| DeiT-S | 22M | 4.6G | 79.9 |
| SPFormer-S | 22M | 5.2G | 81.0 |
| SPFormer-S † | 22M | 5.3G | 81.7 |
| DeiT-B | 87M | 17.5G | 81.8 |
| SPFormer-B | 87M | 19.2G | 82.4 |
| SPFormer-B † | 87M | 19.2G | 82.7 |
- SPFormer は DeiT ベースラインより ImageNet の向上を示し、例: SPFormer-S/32 † は 77.9% Top-1、パラメータ 22M、FLOPs 1.3G、DeiT-S/32 および DeiT-T を上回る。
- ImageNet で SPFormer-S/56 は 72.3% Top-1、パラメータ 22M、FLOPs 0.5G、SPFormer-S/32 および SPFormer-S/32 † はそれぞれ 76.4% および 77.9% の Top-1 を達成。
- SPFormer-B および SPFormer-S のバリエーションは Top-1 スコアを最大 82.7% まで達成し、パラメータ 87M、FLOPs 19.2G、DeiT-B (81.8%) および DeiT-S (79.9%) を上回る。
- 学習済みのスーパーピクセルアソシエーションは segmentation データセットでの訓練なしでも画像境界と一致し、COCO や一部/オブジェクトセグメンテーションタスクへのゼロショット転移を可能にする。
- アブレーション研究は、複数回の SCA, マルチヘッドアテンション, および SCA 層の戦略的配置が性能向上に不可欠であることを示す。
- SPFormer は ADE20K および Pascal Context のセグメンテーション mIoU を改善し、ImageNet 事前学習モデルで最大 +4.2% および +2.8%、スクラッチ学習でもそれぞれ +3.0% および +3.1% の恩恵を受ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。