[論文レビュー] SVD-ViT: Does SVD Make Vision Transformers Attend More to the Foreground?
SVD-ViT は特異値分解を ViT に統合して SPC トークンと任意の SSVA/ID-RSVD モジュールを介して前景特徴を強調し、いくつかのファイングレードおよび一般データセットで精度を向上させる。
Vision Transformers (ViT) have been established as large-scale foundation models. However, because self-attention operates globally, they lack an explicit mechanism to distinguish foreground from background. As a result, ViT may learn unnecessary background features and artifacts, leading to degraded classification performance. To address this issue, we propose SVD-ViT, which leverages singular value decomposition (SVD) to prioritize the learning of foreground features. SVD-ViT consists of three components- extbf{SPC module}, extbf{SSVA}, and extbf{ID-RSVD}-and suppresses task-irrelevant factors such as background noise and artifacts by extracting and aggregating singular vectors that capture object foreground information. Experimental results demonstrate that our method improves classification accuracy and effectively learns informative foreground representations while reducing the impact of background noise.
研究の動機と目的
- ViT のグローバル自己注意と背景ノイズによる前景-背景分離を動機づける。
- 前景強調の集約トークンを作るためにリーディング特異ベクトルを用いる SPC モジュールを導入する。
- discriminative singular directions を選択的に統合するための SSVA と ID-RSVD を提案する。
- ViT ベースラインと比較して五つの画像認識ベンチマークで分類精度を改善したことを示す。
提案手法
- ViT の中間特徴にランダム化 SVD(RSVD)を適用して前景構造を捉えるトップ左特異ベクトルを取得する。
- 特徴をリーディング特異部分空間に射影して SPC トークンを生成し、それをパッチ tokens に付加して後続の Transformer 層に供する。
- SSVA を用いて特異ベクトルを選択的に混合・集約して入力信号に条件付けられた縮小基底へ統合する。
- ID-RSVD を導入してスケッチング射影行列を入力依存にし、必要に応じてパワーイテレーションで改良する。
- ViT エンコーダブロック間に SPC をプラグインとして挿入し、事前学習済み ViT モデルでエンドツーエンドのファインチューニングを行う。
- 五つのデータセット(CUB-200-2011, FGVC-Aircraft, Stanford Cars, Food-101, CIFAR-100)でフルファインチューニングを行い、既定として n=8 のリーディング成分と n' = 4 SPC トークンを用いる。

実験結果
リサーチクエスチョン
- RQ1SVD由来の前景表現は ViT の背景ノイズやアーティファクトに対する頑健性を向上させるか?
- RQ2ViT ブロック間に SPC トークンを挿入することで前景認識的集約が訓練の安定性を損なうことなく強化されるか?
- RQ3SSVA と ID-RSVD はデータセットおよび層によって一貫した利得を提供するか?
- RQ4SVD-ViT はファイングレインドおよび広義の画像分類タスクで ViT ベースラインと比較してどのように性能を発揮するか?
主な発見
- SVD-ViT は五つのデータセットを通じて ViT ベースラインを一貫して上回る。
- CUB-200-2011 では SPC ベースの手法が ViT CLS=1 より最大で 2.52 ポイント高い精度に達する。
- FGVC-Aircraft では SPC のみで最大 2.82 ポイントの改善を達成。
- レイヤ配置が重要で、より深い層(例:Layer 11)付近に SPC を挿入すると利益が大きくなる一方、最終層の後に挿入すると精度が低下することがある。
- SSVA と ID-RSVD はデータセットおよび層に依存する利得を提供し、タスク間で効果が混在する。
- 定性的な可視化は、リーディング特異ベクトルが前景構造と整合し背景アーティファクトを抑制することを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。