[論文レビュー] Training Vision Transformers for Image Retrieval
この論文は、視覚トランスフォーマーを用いたサイアマ型トランスフォーマーアーキテクチャと対照学習損失および微分エントロピー正則化を用いることで、画像検索に効果的に訓練できることを示し、カテゴリレベルで最先端の結果と特定オブジェクト検索で強力な結果を達成している。
Transformers have shown outstanding results for natural language understanding and, more recently, for image classification. We here extend this work and propose a transformer-based approach for image retrieval: we adopt vision transformers for generating image descriptors and train the resulting model with a metric learning objective, which combines a contrastive loss with a differential entropy regularizer. Our results show consistent and significant improvements of transformers over convolution-based approaches. In particular, our method outperforms the state of the art on several public benchmarks for category-level retrieval, namely Stanford Online Product, In-Shop and CUB-200. Furthermore, our experiments on ROxford and RParis also show that, in comparable settings, transformers are competitive for particular object retrieval, especially in the regime of short vector representations and low-resolution images.
研究の動機と目的
- プレーンな視覚トランスフォーマーが画像検索に競争力のある精度で使用できることを実証する
- トランスフォーマーベースのバックボーンと metric learning 損失の相互作用を調査する
- 微分エントロピー正則化が埋め込み空間の利用を改善するかを評価する
- カテゴリレベル検索で SOP、CUB-200-2011、In-Shop の最先端結果を確立する
- Oxford および Paris データセットで特定オブジェクト検索の性能を評価する
提案手法
- シアマ型 Vision Transformer (IRT) アーキテクチャを使用して画像ペアを共通の埋め込み空間にマッピングする
- クロスバッチメモリを主な監督信号として対照的損失を適用する
- 対照的損失に微分エントロピー正則化を追加して埋め込み空間の一様性を促進する
- 既製の ViT 特徴を用い、メトリック学習でファインチューニングする(IRT_O, IRT_L, IRT_R)」
- プーリングのバリエーション(CLS トークン、平均、最大、GeM)と次元削減(PCA)を探索してコンパクトな記述子を得る
- SOP、CUB-200-2011、In-Shop(カテゴリレベル)およびOxford/Paris(特定オブジェクト)で標準的な検索指標を用いて訓練・評価する
実験結果
リサーチクエスチョン
- RQ1プレーンな Vision Transformer バックボーンをメトリックラーニングで訓練すると、畳み込みベースラインと比較してカテゴリレベルの画像検索で競争力あるまたは優れた性能を達成できるか?
- RQ2ViT を対照的損失でファインチューニングすると、既製の ViT 特徴より検索性能が向上するか?
- RQ3対照的損失に微分エントロピー正則化を追加すると、埋め込み空間の利用と検索精度がさらに改善されるか?
- RQ4トランスフォーマーベースの記述子は、畳み込み記述子と比較して、異なる記述子サイズと画像解像度で特定オブジェクト検索においてどのように性能が異なるか?
主な発見
| Method | Backbone | Descriptor dims | SOP Recall@1 | CUB Recall@1 | In-Shop Recall@1 |
|---|---|---|---|---|---|
| IRT_R (ours) | DeiT-S | 128 | 83.4 | 93.0 | 97.0 |
| IRT_R (ours) | DeiT-S | 384 | 84.0 | 93.6 | 97.2 |
- IRT_R with DeiT-S backbones achieves state-of-the-art Recall@1 on SOP, outperforming prior methods by a notable margin
- On CUB-200-2011, DeiT-S 384 with regularized training outperforms prior art at Recall@1
- For In-Shop, DeiT-S 384 yields superior Recall@1 versus prior convnet-based methods
- In particular object retrieval, DeiT-S and DeiT-B variants outperform ResNet-50/101 at 224x224 and scale well to 384x384, with competitive FLOPS
- Differential entropy regularization improves performance across benchmarks and mitigates feature collapse observed with plain contrastive loss
- Transformers show robustness to feature collapse and can match or exceed convnets at comparable capacity and resolutions
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。