QUICK REVIEW

[논문 리뷰] Harmonious Attention Network for Person Re-Identification

Wei Li, Xiatian Zhu|arXiv (Cornell University)|2018. 02. 22.

Video Surveillance and Tracking Methods참고 문헌 25인용 수 188

한 줄 요약

HA-CNN은 경량 CNN 내에서 소프트 픽셀 어텐션과 하드 리저널 어텐션을 함께 학습하여 바운딩 박스의 정렬 불일치 하에서 사람 재식별을 향상시키고, 세 가지 대형 벤치마크에서 최첨단 성능을 능가한다.

ABSTRACT

Existing person re-identification (re-id) methods either assume the availability of well-aligned person bounding box images as model input or rely on constrained attention selection mechanisms to calibrate misaligned images. They are therefore sub-optimal for re-id matching in arbitrarily aligned person images potentially with large human pose variations and unconstrained auto-detection errors. In this work, we show the advantages of jointly learning attention selection and feature representation in a Convolutional Neural Network (CNN) by maximising the complementary information of different levels of visual attention subject to re-id discriminative learning constraints. Specifically, we formulate a novel Harmonious Attention CNN (HA-CNN) model for joint learning of soft pixel attention and hard regional attention along with simultaneous optimisation of feature representations, dedicated to optimise person re-id in uncontrolled (misaligned) images. Extensive comparative evaluations validate the superiority of this new HA-CNN model for person re-id over a wide variety of state-of-the-art methods on three large-scale benchmarks including CUHK03, Market-1501, and DukeMTMC-ReID.

연구 동기 및 목표

무제약된 정렬 불일치 및 자동 탐지 바운딩 박스의 배경 잡음으로부터의 견고한 사람 재식별을 촉진한다.
재식별 판별 학습과 함께 다층 어텐션(소프트 픽셀, 소프트 채널, 하드 리전)을 공동으로 학습하는 경량 CNN을 제안한다.
어텐션 모듈 간 및 특징 표현 간의 보완 정보를 극대화하기 위해 교차 어텐션 상호작용을 도입한다.
공동 소프트/하드 어텐션이 컴팩트한 모델로 우수한 재식별 성능을 얻는다는 것을 입증한다.

제안 방법

소프트 공간, 소프트 채널, 하드 리전 어텐션을 결합한 Harmonious Attention (HA) 모듈을 도입한다.
매개변수를 줄이기 위해 초기 계층을 공유하는 글로벌 브랜치와 다수의 로컬 스트림을 갖는 다분기 HA-CNN을 사용한다.
소프트 공간 및 채널 어텐션은 A^l = S^l × C^l로 인수분해되며, 여기서 S^l은 공간 어텐션 맵이고 C^l은 채널 어텐션 맵이며 경량 서브네트워크를 통해 계산된다.
하드 리전 어텐션은 작은 변환 행렬을 통해 잠재 판별 영역을 위치시키고, 이 영역은 로컬 스트림으로 입력된다.
레벨 내부 및 크로스 레벨 아키텍처: 각 레벨에서 하드 및 소프트 어텐션을 학습하고, 교차 어텐션 상호작용 학습(CAIL)이 가지 브랜치 간 로컬/전역 특징을 풍부하게 한다.
교차 어텐션 상호작용은 로컬 특징에 글로벌 특징을 더한다: X̃_L^{(l,k)} = X_L^{(l,k)} + X_G^{(l,k)} 재식별 제약 하의 판별력을 향상시키기 위함이다.
공동 학습은 글로벌 및 로컬 브랜치 모두에 대한 아이덴티티 분류 손실을 사용하여 대규모 데이터 증강이나 사전 학습 없이도 엔드 투 엔드 학습을 가능하게 한다.

실험 결과

연구 질문

RQ1정렬 불일치 하에서 성능을 향상시키기 위해 다층 어텐션(소프트 픽셀, 소프트 채널, 하드 리전)을 단일 재식별 모델 내에서 어떻게 공동으로 학습시킬 수 있는가?
RQ2글로벌 및 로컬 특징 브랜치 간의 교차 어텐션 상호작용이 어텐션 메커니즘과 특징 표현 간의 조화를 향상시키는가?
RQ3경량 HA-CNN이 모델 크기와 학습 복잡도를 줄이면서 최첨단 재식별 성능을 달성할 수 있는가?

주요 결과

HA-CNN은 Market-1501, DukeMTMC-ReID, CUHK03에서 광범위한 최첨단 방법들과 비교하여 우수한 Rank-1 및 mAP를 달성한다.
Market-1501 (Single-Query)에서 HA-CNN은 91.2% R1 및 75.7% mAP를, Multi-Query에서는 93.8% R1 및 82.8% mAP를 달성한다.
DukeMTMC-ReID에서 HA-CNN은 80.5% R1 및 63.8% mAP를 달성한다.
CUHK03 (Deteced, 767/700 split)에서 HA-CNN은 41.7% mAP를 달성하고 41.7%? R1?; 비교 방법 중 최고는 44.4% R1 및 41.0% mAP로 표기되며 레이블된 버전이고 41.7% R1 및 38.6% mAP은 검출된 버전이다(참고: 숫자는 보고된 대로 추출된 것이다).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.