[論文レビュー] TransReID: Transformer-based Object Re-Identification
TransReIDは、オブジェクトReIDのための純粋なトランスフォーマーフレームワークを提示し、jigsaw patch module (JPM) および side information embeddings (SIE) を導入して、人物および車両のReIDベンチマークで最先端の結果を達成します。
Extracting robust feature representation is one of the key challenges in object re-identification (ReID). Although convolution neural network (CNN)-based methods have achieved great success, they only process one local neighborhood at a time and suffer from information loss on details caused by convolution and downsampling operators (e.g. pooling and strided convolution). To overcome these limitations, we propose a pure transformer-based object ReID framework named TransReID. Specifically, we first encode an image as a sequence of patches and build a transformer-based strong baseline with a few critical improvements, which achieves competitive results on several ReID benchmarks with CNN-based methods. To further enhance the robust feature learning in the context of transformers, two novel modules are carefully designed. (i) The jigsaw patch module (JPM) is proposed to rearrange the patch embeddings via shift and patch shuffle operations which generates robust features with improved discrimination ability and more diversified coverage. (ii) The side information embeddings (SIE) is introduced to mitigate feature bias towards camera/view variations by plugging in learnable embeddings to incorporate these non-visual clues. To the best of our knowledge, this is the first work to adopt a pure transformer for ReID research. Experimental results of TransReID are superior promising, which achieve state-of-the-art performance on both person and vehicle ReID benchmarks.
研究の動機と目的
- ReIDにおけるグローバルな文脈モデリングの制約と細かなディテールの保持の課題をCNNの限界として克服する動機。
- CNNベースの手法と同等かそれを上回る純粋なトランスフォーマー由来のReIDフレームワークを開発する。
- 遮蔽、ミスアライメント、カメラ/視点の変動に対するロバスト性を高める仕組みを導入する。
- エンドツーエンドの学習可能なシステム内で、二つの新規モジュール JPM と SIE の有効性を示す。
提案手法
- 画像を重なるパッチの連なりとしてエンコードし、グローバルな文脈を捉えるためにトランスフォーマーで処理する。
- グローバル特徴ブランチとJPMベースのローカル特徴ブランチを、共有トランスフォーマーレイヤで構成する2分岐セットアップを採用する。
- Jigsaw Patch Module (JPM) を導入し、パッチ埋め込みをシフト・シャッフルして、多様で頑健なローカル特徴を生成する。
- Side Information Embeddings (SIE) を組み込み、カメラおよび視点情報を学習可能な埋め込みとして符号化する。
- グローバルおよびローカル特徴の両方でIDロスとトリプレットロスで学習し、それらを推論時に統合する。
実験結果
リサーチクエスチョン
- RQ1純粋なTransformerバックボーンは、人物および車両のReIDにおいてCNNベースのモデルと競争力のある性能を発揮できるか?
- RQ2JPMとSIEは、ReIDにおける遮蔽・ミスアライメント・カメラ間/視点変動に対する頑健性を向上させるか?
- RQ3重ね合わせパッチとグローバル・ローカルの共同学習がReIDの性能に与える影響はどの程度か?
- RQ4標準的なReIDベンチマークにおけるカメラ/視点のサイド情報埋め込みの寄与度はどれくらいか?
主な発見
- 純粋なTransformerベースラインは、既にCNNバックボーンと競合するReID性能を達成している。
- JPMを追加すると顕著な改善をもたらす(例: Baselineに対してMSMT17で+2.6%のmAP、VeRi-776で+1.0%のmAP)。
- SIEの組み込みによりカメラ間/視点のバイアスが減少し、mAPがさらに改善される(例: カメラと視点の埋め込みを用いたMSMT17の向上)。
- JPMとSIEを用いたTransReIDはMSMT17で64.9 mAPと83.3 R1、VeRi-776で80.6 mAPと96.9 R1を達成。
- 従来の最先端と比較して、TransReIDのバリエーションはMSMT17、Market-1501、DukeMTMC-reID、Occluded-Duke、VeRi-776、VehicleIDを含む複数のベンチマークで最先端の性能を達成している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。