[論文レビュー] Feature Fusion Vision Transformer for Fine-Grained Visual Categorization
FFVTはViTを拡張し、FGVCの局所・中間・高レベルトークンを統合する特徴融合メカニズムとMutual Attention Weight Selection (MAWS) を導入し、FGVCの4つのベンチマークで最先端の結果を達成。
The core for tackling the fine-grained visual categorization (FGVC) is to learn subtle yet discriminative features. Most previous works achieve this by explicitly selecting the discriminative parts or integrating the attention mechanism via CNN-based approaches.However, these methods enhance the computational complexity and make the modeldominated by the regions containing the most of the objects. Recently, vision trans-former (ViT) has achieved SOTA performance on general image recognition tasks. Theself-attention mechanism aggregates and weights the information from all patches to the classification token, making it perfectly suitable for FGVC. Nonetheless, the classifi-cation token in the deep layer pays more attention to the global information, lacking the local and low-level features that are essential for FGVC. In this work, we proposea novel pure transformer-based framework Feature Fusion Vision Transformer (FFVT)where we aggregate the important tokens from each transformer layer to compensate thelocal, low-level and middle-level information. We design a novel token selection mod-ule called mutual attention weight selection (MAWS) to guide the network effectively and efficiently towards selecting discriminative tokens without introducing extra param-eters. We verify the effectiveness of FFVT on three benchmarks where FFVT achieves the state-of-the-art performance.
研究の動機と目的
- FGVCにおける判別力のある局所特徴の必要性に対処する。
- CNNのバイアスなしにグローバル情報と局所情報の両方を捉えるためにビジョントランスフォーマーを活用する。
- 追加パラメータなしでレイヤー間の有益なトークンを選択するトークン選択メカニズムを開発する。
- 局所・中高レベル情報で最終分類器を豊かにする多レベルトークンを結合する。
- 小規模および超細分類データセットを含む4つのFGVCベンチマークで検証する。
提案手法
- 分類のためのクラス特 tokenを含むパッチに分割して画像を処理する純粋なViTバックボーンを使用する。
- 入力を前のレイヤーから選択されたトークン(クラス token を除く)で置換するLast transformer layerの入力を置換するFeature Fusion Moduleを導入する。
- 自己注意スコアを用いて融合の判別的トークンを選択するMutual Attention Weight Selection (MAWS) を提案する。
- 分類トークン側とトークン側文脈からの注意スコアを正規化して相互注意ウェイトを計算し、各レイヤーごとに上位Kトークンを選択する。
- 各レイヤーからK個の局所/中間/高レベルトークンを z_local として集約し、最後の層の入力と融合して z_ff を作成し、最終分類器へ入力する。
- MAWS に追加の学習可能パラメータを持たず、トークン選択には注意から導かれる信号に依存する。
実験結果
リサーチクエスチョン
- RQ1純粋なトランスフォーマーアーキテクチャと多層トークン融合で、小規模および超細分類データセットの両方で競争力のあるFGVC性能を達成できるか?
- RQ2局所・中間トークンを層を跨いで選択的に集約することで、最終層のクラス-token情報のみを使用する場合よりFGVC性能が向上するか?
- RQ3MAWSベースのトークン選択は、学習可能パラメータを追加せずに有効かつ効率的か?
主な発見
| 手法 | バックボーン | 正解率 |
|---|---|---|
| ViT | ViT-B_16 | 90.8 |
| TransFG | ViT-B_16 | 91.7 |
| FFVT | ViT-B_16 | 91.6 |
| ViT | ViT-B_16 (Dogs) | 90.2 |
| FFVT | ViT-B_16 (Dogs) | 91.5 |
| TransFG | ViT-B_16 (Dogs) | 92.3 |
| FFVT | ViT-B_16 (Cotton) | 57.92 |
| FFVT | ViT-B_16 (Soy.Loc) | 44.17 |
- FFVTは四つのFGVCベンチマークで最先端の結果を達成し、多くのCNNベース手法を上回る。
- CUB-200-2011では、ViT-B_16を用いたFFVTは91.6%の精度を獲得し、91.7%のTransFGに次ぐ。
- Stanford DogsではFFVTは91.5%の精度を達成し、2番目のTransFGより0.9%上回る。
- CottonCultivar80ではFFVTは57.92%の精度を達成し、報告された手法の中で最高。
- SoyCultivarLocalではFFVTは44.17%の精度を達成し、従来手法より高い。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。