Skip to main content
QUICK REVIEW

[論文レビュー] Exploiting the Textual Potential from Vision-Language Pre-training for Text-based Person Search

Guanshuo Wang, Fufu Yu|arXiv (Cornell University)|Mar 8, 2023
Video Surveillance and Tracking Methods被引用数 13
ひとこと要約

論文はTP-TPSを提案する。これは双対事前学習エンコーダを完全活用し、MIDCとDAPを導入してテキストの潜在能力を活用し、堅牢なクロスモーダル整合性と細粒度表現を実現するVLPベースのテキストベース人物検索フレームワークである。

ABSTRACT

Text-based Person Search (TPS), is targeted on retrieving pedestrians to match text descriptions instead of query images. Recent Vision-Language Pre-training (VLP) models can bring transferable knowledge to downstream TPS tasks, resulting in more efficient performance gains. However, existing TPS methods improved by VLP only utilize pre-trained visual encoders, neglecting the corresponding textual representation and breaking the significant modality alignment learned from large-scale pre-training. In this paper, we explore the full utilization of textual potential from VLP in TPS tasks. We build on the proposed VLP-TPS baseline model, which is the first TPS model with both pre-trained modalities. We propose the Multi-Integrity Description Constraints (MIDC) to enhance the robustness of the textual modality by incorporating different components of fine-grained corpus during training. Inspired by the prompt approach for zero-shot classification with VLP models, we propose the Dynamic Attribute Prompt (DAP) to provide a unified corpus of fine-grained attributes as language hints for the image modality. Extensive experiments show that our proposed TPS framework achieves state-of-the-art performance, exceeding the previous best method by a margin.

研究の動機と目的

  • ビジョンと言語の事前学習の両方を活用してテキストベース人物検索(TPS)を推進する。
  • 最小限の微調整で二重の事前学習エンコーダを用いたベースラインVLP-TPSモデルを開発する。
  • MIDCを導入してテキストの完全性とクロスモーダル整合性を強制する。
  • DAPを導入して属性プロンプトを提供し、視覚表現を細粒度のディテールへ導く。
  • ベンチマーク全体で最先端のTPS結果を示し、構成要素の寄与を分析する。

提案手法

  • 基線TPSは二重の事前学習エンコーダを用いる(CLIPベースの視覚バックボーンとテキストバックボーン)。
  • 両モダリティの細粒度パッチ-および語レベル特徴を得るためのトークンプーリング。
  • Multi-Integrity Description Constraints (MIDC)が不完全な属性記述を生成し、クロスモーダルおよび完全性損失を強制。
  • Dynamic Attribute Prompt (DAP)が属性ベースのプロンプトを生成し、テキスト由来のヒントで視覚特徴を導く。プロンプトは視覚エンコーダの監視にも用いられる。
  • 結合目的関数: L = L_cls + L_align + lambda0*L_int + lambda1*L_pmt、追加のプロンプト側および完全性制約を含む。
Figure 1 : A typical Text-based Person Search model initialized with Vision-Language Pre-training models. The pre-trained vision encoders are used to initialize the TPS image representation, but textual encoders are altered by external language models such as LSTM or BERT, which is a asymmetry setti
Figure 1 : A typical Text-based Person Search model initialized with Vision-Language Pre-training models. The pre-trained vision encoders are used to initialize the TPS image representation, but textual encoders are altered by external language models such as LSTM or BERT, which is a asymmetry setti

実験結果

リサーチクエスチョン

  • RQ1VLP-TPSにおいてテキストエンコーダをどのように完全に活用してTPSのクロスモーダル整合性を向上させるか。
  • RQ2MIDCとDAPは、テキストの完全性と属性プロンプトを活用することでベースラインより有意な利得を提供するか。
  • RQ3CLIPベースのテキストエンコーダを統合することがTPSの性能にどのような影響を与えるか。
  • RQ4MIDCとDAPは相互作用し、細粒度属性表現の改善にどのように寄与するか。

主な発見

順位1順位5順位10mAP
TP-TPS (CUHK-PEDES)70.1686.1090.9866.32
VLP-TPS (CUHK-PEDES)65.3882.7488.9862.47
TP-TPS (ICFG-PEDES)60.6475.9781.7642.78
VLP-TPS (ICFG-PEDES)56.7972.7078.9840.59
TP-TPS (RSTPReid)50.6572.4581.2043.11
VLP-TPS (RSTPReid)45.5568.8577.6040.99
  • TP-TPSはCUHK-PEDESでRank-1 70.16%およびmAP 66.32%の最先端結果を達成。
  • ICFG-PEDESではTP-TPSがRank-1 60.64%およびmAP 42.78%を達成。
  • RSTPReidではTP-TPSがRank-1 50.65%およびmAP 43.11%に到達。
  • CLIP-TEを使用するとベースラインの性能が向上し、MIDCとDAPを追加するとベースラインVLP-TPSを超えるさらなる利得が得られる。
  • MIDCは部分的な記述を横断してテキストの完全性を強制することで一貫した改善を提供し、DAPは視覚表現を強化する細粒度の属性ガイダンスを提供する。
Figure 2 : Overview pipeline of the proposed TP-TPS. A simple baseline framework is developed based on CLIP pre-trained model. Visual and textual token pooling operations are employed to represent token-level fine-grained features for both modalities. We further introduce the Multi-Integrity Descrip
Figure 2 : Overview pipeline of the proposed TP-TPS. A simple baseline framework is developed based on CLIP pre-trained model. Visual and textual token pooling operations are employed to represent token-level fine-grained features for both modalities. We further introduce the Multi-Integrity Descrip

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。