QUICK REVIEW

[논문 리뷰] Text-Based Person Search with Limited Data

Han Xiao, Sen He|arXiv (Cornell University)|2021. 10. 20.

Multimodal Machine Learning Applications참고 문헌 42인용 수 38

한 줄 요약

논문은 CM-MoCo를 제안하고, 대규모 이미지-텍스트 데이터로부터의 전이 학습 전략을 통해 제한된 데이터에서 텍스트 기반 인물 검색을 개선하여 CUHK-PEDES에서 SOTA를 달성한다.

ABSTRACT

Text-based person search (TBPS) aims at retrieving a target person from an image gallery with a descriptive text query. Solving such a fine-grained cross-modal retrieval task is challenging, which is further hampered by the lack of large-scale datasets. In this paper, we present a framework with two novel components to handle the problems brought by limited data. Firstly, to fully utilize the existing small-scale benchmarking datasets for more discriminative feature learning, we introduce a cross-modal momentum contrastive learning framework to enrich the training data for a given mini-batch. Secondly, we propose to transfer knowledge learned from existing coarse-grained large-scale datasets containing image-text pairs from drastically different problem domains to compensate for the lack of TBPS training data. A transfer learning method is designed so that useful information can be transferred despite the large domain gap. Armed with these components, our method achieves new state of the art on the CUHK-PEDES dataset with significant improvements over the prior art in terms of Rank-1 and mAP. Our code is available at https://github.com/BrandonHanx/TextReID.

연구 동기 및 목표

한정된 벤치마크 데이터셋을 보다 효과적으로 활용하여 TBPS(텍스트 기반 인물 검색) 데이터의 라벨 부족 문제를 해결한다.
모멘텀 기반 대비 학습을 통해 교차 모달 부정 샘플을 풍부하게 하여 식별 능력을 향상시킨다.
대규모 이미지-텍스트 쌍에서의 지식을 신중한 교차 모달 전이 학습 전략으로 활용하여 도메인 간 격차를 완화한다.

제안 방법

시각적 인코더와 텍스트 인코더를 각각 두고 시각/텍스트/정체성에 대한 전용 큐를 갖춘 분리된 시각적/텍스트 질의 인코더 및 모멘텀 키 인코더를 갖춘 교차 모달 모멘텀 대비 학습(CM-MoCo)을 도입한다.
쿼리 인코더를 앵커로, 키 인코더를 양수로, 큐를 음수로 사용하는 교차 모달 대비 손실을 형식화한다.
CM-MoCo를 정렬 손실 및 정체성 손실과 함께 엔드-투-엔드 학습 프레임워크로 결합한다.
거대 사전 학습 모델의 텍스트 인코더를 고정하고 Bi-GRU로 단어 임베딩을 맥락화하는 교차 모달 전이 학습 전략을 제안하여 도메인 격차를 해소한다.
교차 모달 k-reciprocal 재랭킹으로 후처리하여 검색 성능을 추가로 향상시킨다.

실험 결과

연구 질문

RQ1CM-MoCo가 배치 크기에서 음수를 분리함으로써 한정된 TBPS 데이터에서 효과적으로 활용될 수 있는가?
RQ2도메인 간 격차가 큰 경우 대규모 이미지-텍스트 사전 학습으로부터 지식을 전이하는 것이 TBPS에 도움이 되며, 부정 전이를 피하기 위해 이 전이를 어떻게 수행해야 하는가?
RQ3CM-MoCo, 정렬, 정체성 손실의 어떤 조합이 CUHK-PEDES에서 최상의 TBPS 성능을 낳는가?
RQ4TBPS 데이터와 일반 이미지-텍스트 데이터 간의 도메인 간 격차를 가장 잘 완화하는 텍스트 모듈의 전이 학습 설계는 무엇인가?

주요 결과

CM-MoCo가 CUHK-PEDES에서 텍스트-이미지 및 이미지-텍스트 검색을 기준선보다 크게 향상시킨다.
큰 이미지-텍스트 데이터 세트에서의 단어 임베딩만의 전이(고정된 CLIP 텍스트 인코더와 Bi-GRU 맥락화)를 통해 상당한 이득을 얻고 부정 전이를 피한다.
CM-MoCo에서 더 큰 교차 모달 큐(예: 1024 또는 2048)를 사용하는 것이 일반적으로 성능을 향상시키지만, 데이터 부족으로 인해 큐가 지나치게 크면 해로울 수 있다.
텍스트 스트림에 대한 제안된 전이 전략(단어 임베딩과 맥락화)은 naive한 전체 모델 전이보다 우수하다.
CM-MoCo는 모델 전반에서 일관되게 성능을 향상시키며, 통합 시 Rank 지표에서 평균 약 1.5%의 향상을 더한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.