Skip to main content
QUICK REVIEW

[論文レビュー] Self-Supervised Pre-Training for Transformer-Based Person Re-Identification

Hao Luo, Pichao Wang|arXiv (Cornell University)|Nov 23, 2021
Video Surveillance and Tracking Methods参考文献 43被引用数 40
ひとこと要約

この論文は人物ReIDのためのtransformerベースの自己教師付き事前学習を調査し、条件付き事前学習のためのCatastrophic Forgetting Score (CFS)とドメインギャップを橋渡しするIBNベースの畳み込み幹 (ICS) を導入し、Market-1501とMSMT17で最先端の結果を達成した。

ABSTRACT

Transformer-based supervised pre-training achieves great performance in person re-identification (ReID). However, due to the domain gap between ImageNet and ReID datasets, it usually needs a larger pre-training dataset (e.g. ImageNet-21K) to boost the performance because of the strong data fitting ability of the transformer. To address this challenge, this work targets to mitigate the gap between the pre-training and ReID datasets from the perspective of data and model structure, respectively. We first investigate self-supervised learning (SSL) methods with Vision Transformer (ViT) pretrained on unlabelled person images (the LUPerson dataset), and empirically find it significantly surpasses ImageNet supervised pre-training models on ReID tasks. To further reduce the domain gap and accelerate the pre-training, the Catastrophic Forgetting Score (CFS) is proposed to evaluate the gap between pre-training and fine-tuning data. Based on CFS, a subset is selected via sampling relevant data close to the down-stream ReID data and filtering irrelevant data from the pre-training dataset. For the model structure, a ReID-specific module named IBN-based convolution stem (ICS) is proposed to bridge the domain gap by learning more invariant features. Extensive experiments have been conducted to fine-tune the pre-training models under supervised learning, unsupervised domain adaptation (UDA), and unsupervised learning (USL) settings. We successfully downscale the LUPerson dataset to 50% with no performance degradation. Finally, we achieve state-of-the-art performance on Market-1501 and MSMT17. For example, our ViT-S/16 achieves 91.3%/89.9%/89.6% mAP accuracy on Market1501 for supervised/UDA/USL ReID. Codes and models will be released to https://github.com/michuanhaohao/TransReID-SSL.

研究の動機と目的

  • 事前学習ドメインとReIDターゲットドメイン間のギャップを、データとモデル構造の差異に対処することで埋める。
  • SSL pre-training on unlabelled person images can outperform ImageNet supervision for ViT-based ReID.
  • Propose a data-efficient conditional pre-training method (CFS) to downscale pre-training data while maintaining or improving performance.
  • Develop an IBN-based convolution stem (ICS) to improve invariance and stability of ViT-based ReID models.
  • Evaluate under supervised, unsupervised domain adaptation (UDA), and unsupervised learning (USL) settings and compare to state-of-the-art.

提案手法

  • SSLメソッド(MoCoV2、MoCoV3、MoBY、DINO)をViTとLUPersonでImageNet事前学習ベースと比較する実証研究。
  • TransformerベースのReID事前学習にはDINOを優先SSLメソッドとして採用する。
  • Catastrophic Forgetting Score (CFS)を導入し、事前学習データとファインチューニングデータ間のドメインギャップを測定し、LUPersonから条件付きデータフィルタリングを行って、より小さく関連性の高い事前学習サブセットを作成する。
  • ViTの最適化安定性と外観不変特徴の学習を改善するためのIBNベースの畳み込み幹(ICS)を提案する。
  • Market-1501とMSMT17で3つのファインチューニング設定(Supervised、USL、UDA)を評価し、ImageNet-pretrainedベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1ラベルなしの人物画像(LUPerson)に対するSSL事前学習はViTベースのReIDにおいてImageNet supervise学習を上回るのか?
  • RQ2データ駆動型の条件付き事前学習戦略(CFS)は、下流のパフォーマンスを損なうことなく事前学習データサイズと時間を削減できるか?
  • RQ3ReID専用のConvolution Stem(ICS)はViTの性能と安定性を向上させるか?
  • RQ4ViTバックボーンを用いた場合、監視付き、USL、UDA設定でのSSL事前学習の利得はどれほどか?
  • RQ5提案手法はMarket-1501とMSMT17における監視付き、UDA、USLのReIDシナリオで最先端手法とどう比較されるか?

主な発見

  • LUPersonでのDINOベースのSSL事前学習をViT-S/16で行うとReID性能が高く、ImageNetで事前学習した基線を上回る場合が多い。
  • Catastrophic Forgetting Score (CFS)と事前学習データのフィルタリングによるCondPトレーニングは、事前学習データを50%(場合によっては30-60%)に削減しても下流の性能が同等かそれ以上となり、約30%の事前学習時間を節約できる。
  • ICS(IBNベースの畳み込み幹)は、監視付き、USL、およびUDAの設定でViTベースのReID性能を一貫して向上させ、条件付き事前学習においても利点が持続する。
  • 評価全体を通じて、LUPersonの自己教師付き事前学習はTransformerベースのReIDにおいて一般的にImageNet監視より優れており、USLとUDA設定下でMSMT17に顕著な利得がある。
  • 提案手法は監視付き、UDA、USLのReIDシナリオでMarket-1501とMSMT17において最先端の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。