QUICK REVIEW

[논문 리뷰] Cascade Attention Network for Person Search: Both Image and Text-Image Similarity Selection.

Ya Jing, Chenyang Si|arXiv (Cornell University)|2018. 09. 22.

Multimodal Machine Learning Applications참고 문헌 16인용 수 10

한 줄 요약

이 논문은 텍스트 기반 인물 검색을 위해 자세 유도 다중 길이 주의망(PMA)을 제안한다. 이는 자세 정보에 의해 유도되는 굵은 정도와 세밀한 정도의 주의 메커니즘을 활용하여 전반적인 기술과 어휘 수준의 의미를 해당 이미지 영역과 정렬한다. 이 방법은 CUHK-PEDES 데이터셋에서 최상위 1 검색 정확도에서 최신 기술 대비 15% 향상된 성능을 달성한다.

ABSTRACT

Text-based person search aims to retrieve the corresponding person images in an image database by virtue of a describing sentence about the person, which poses great potential for various applications such as video surveillance. Extracting visual contents corresponding to the human description is the key to this cross-modal matching problem. Moreover, correlated images and descriptions involve different granularities of semantic relevance, which is usually ignored in previous methods. To exploit the multilevel corresponding visual contents, we propose a pose-guided multi-granularity attention network (PMA). Firstly, we propose a coarse alignment network (CA) to select the related image regions to the global description by a similarity-based attention. To further capture the phrase-related visual body part, a fine-grained alignment network (FA) is proposed, which employs pose information to learn latent semantic alignment between visual body part and textual noun phrase. To verify the effectiveness of our model, we perform extensive experiments on the CUHK Person Description Dataset (CUHK-PEDES) which is currently the only available dataset for text-based person search. Experimental results show that our approach outperforms the state-of-the-art methods by 15 \% in terms of the top-1 metric.

연구 동기 및 목표

자연어 기술과 관련된 이미지 영역 간의 정렬을 통해 교차 모달 인물 검색의 과제를 해결한다.
기존 방법들이 이미지-텍스트 상호관계에서 다중 수준의 의미 길이 간의 정밀도를 忽略하는 한계를 극복한다.
전반적이고 어휘 수준의 시각-언어 정렬을 모델링하여 검색 정확도를 향상시킨다.
인간 자세 정보를 활용하여 신체 부위와 기술어 내의 명사구 간의 세밀한 정렬을 향상시킨다.

제안 방법

전반적인 인물 기술에 관련된 이미지 영역을 선택하기 위해 유사도 기반 주의를 사용하는 굵은 정도 정렬 네트워크(CA)를 제안한다.
자세 추정을 통해 특정 신체 부위와 텍스트 내 명사구 간의 주의를 유도하는 세밀한 정도 정렬 네트워크(FA)를 설계한다.
두 네트워크를 계단식으로 통합하여 굵은 정도에서 세밀한 정도로 점진적으로 시각-의미 매칭을 정교화한다.
자세 정보를 보조 신호로 활용하여 어휘 수준의 정렬 정확도를 향상시킨다.
이미지 및 텍스트 임베딩 학습을 위한 공동 최적화 목표를 사용하여 CUHK-PEDES 데이터셋에서 종단 간 모델을 훈련시킨다.
텍스트 쿼리 의미에 따라 관련 시각적 특징의 가중치를 동적으로 조정하는 주의 메커니즘을 활용한다.

실험 결과

연구 질문

RQ1텍스트 기술과 이미지 영역 간의 다중 길이 의미 정렬이 어떻게 인물 검색 성능을 향상시키는가?
RQ2자세 유도 주의가 텍스트 기반 인물 검색에서 세밀한 정렬을 얼마나 향상시키는가?
RQ3전반적이고 어휘 수준의 정렬을 통합한 계단식 주의 기반 메커니즘이 기존의 단일 길이 수준 접근법을 초월할 수 있는가?
RQ4제안된 방법은 CUHK-PEDES 벤치마크에서 최신 기술 모델과 비교해 어떻게 성능을 내는가?

주요 결과

제안된 방법은 CUHK-PEDES 데이터셋에서 최신 기술 대비 상대적으로 최상위 1 검색 정확도에서 15% 향상된 성능을 달성한다.
굵은 정도 정렬 네트워크는 전반적인 인물 기술에 관련된 이미지 영역를 효과적으로 식별한다.
자세 정보에 의해 유도된 세밀한 정도 정렬 네트워크는 특정 신체 부위와 텍스트 어휘 사이의 정렬을 크게 향상시킨다.
계단식 주의 기반 메커니즘은 다중 길이 간에 점진적인 정교화를 통해 시각-의미 매칭을 가능하게 한다.
모델은 효과적으로 전반적이고 국소적인 의미 상관관계를 포착함으로써 우수한 일반화 능력을 보여준다.
자세 정보를 보조 신호로 사용함으로써 모델이 명사구에 해당하는 관련 신체 부위를 정확히 국소화하는 능력이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.