[논문 리뷰] Harmonious Attention Network for Person Re-Identification
HA-CNN은 경량 CNN 내에서 소프트 픽셀 어텐션과 하드 리저널 어텐션을 함께 학습하여 바운딩 박스의 정렬 불일치 하에서 사람 재식별을 향상시키고, 세 가지 대형 벤치마크에서 최첨단 성능을 능가한다.
Existing person re-identification (re-id) methods either assume the availability of well-aligned person bounding box images as model input or rely on constrained attention selection mechanisms to calibrate misaligned images. They are therefore sub-optimal for re-id matching in arbitrarily aligned person images potentially with large human pose variations and unconstrained auto-detection errors. In this work, we show the advantages of jointly learning attention selection and feature representation in a Convolutional Neural Network (CNN) by maximising the complementary information of different levels of visual attention subject to re-id discriminative learning constraints. Specifically, we formulate a novel Harmonious Attention CNN (HA-CNN) model for joint learning of soft pixel attention and hard regional attention along with simultaneous optimisation of feature representations, dedicated to optimise person re-id in uncontrolled (misaligned) images. Extensive comparative evaluations validate the superiority of this new HA-CNN model for person re-id over a wide variety of state-of-the-art methods on three large-scale benchmarks including CUHK03, Market-1501, and DukeMTMC-ReID.
연구 동기 및 목표
- 무제약된 정렬 불일치 및 자동 탐지 바운딩 박스의 배경 잡음으로부터의 견고한 사람 재식별을 촉진한다.
- 재식별 판별 학습과 함께 다층 어텐션(소프트 픽셀, 소프트 채널, 하드 리전)을 공동으로 학습하는 경량 CNN을 제안한다.
- 어텐션 모듈 간 및 특징 표현 간의 보완 정보를 극대화하기 위해 교차 어텐션 상호작용을 도입한다.
- 공동 소프트/하드 어텐션이 컴팩트한 모델로 우수한 재식별 성능을 얻는다는 것을 입증한다.
제안 방법
- 소프트 공간, 소프트 채널, 하드 리전 어텐션을 결합한 Harmonious Attention (HA) 모듈을 도입한다.
- 매개변수를 줄이기 위해 초기 계층을 공유하는 글로벌 브랜치와 다수의 로컬 스트림을 갖는 다분기 HA-CNN을 사용한다.
- 소프트 공간 및 채널 어텐션은 A^l = S^l × C^l로 인수분해되며, 여기서 S^l은 공간 어텐션 맵이고 C^l은 채널 어텐션 맵이며 경량 서브네트워크를 통해 계산된다.
- 하드 리전 어텐션은 작은 변환 행렬을 통해 잠재 판별 영역을 위치시키고, 이 영역은 로컬 스트림으로 입력된다.
- 레벨 내부 및 크로스 레벨 아키텍처: 각 레벨에서 하드 및 소프트 어텐션을 학습하고, 교차 어텐션 상호작용 학습(CAIL)이 가지 브랜치 간 로컬/전역 특징을 풍부하게 한다.
- 교차 어텐션 상호작용은 로컬 특징에 글로벌 특징을 더한다: X̃_L^{(l,k)} = X_L^{(l,k)} + X_G^{(l,k)} 재식별 제약 하의 판별력을 향상시키기 위함이다.
- 공동 학습은 글로벌 및 로컬 브랜치 모두에 대한 아이덴티티 분류 손실을 사용하여 대규모 데이터 증강이나 사전 학습 없이도 엔드 투 엔드 학습을 가능하게 한다.
실험 결과
연구 질문
- RQ1정렬 불일치 하에서 성능을 향상시키기 위해 다층 어텐션(소프트 픽셀, 소프트 채널, 하드 리전)을 단일 재식별 모델 내에서 어떻게 공동으로 학습시킬 수 있는가?
- RQ2글로벌 및 로컬 특징 브랜치 간의 교차 어텐션 상호작용이 어텐션 메커니즘과 특징 표현 간의 조화를 향상시키는가?
- RQ3경량 HA-CNN이 모델 크기와 학습 복잡도를 줄이면서 최첨단 재식별 성능을 달성할 수 있는가?
주요 결과
- HA-CNN은 Market-1501, DukeMTMC-ReID, CUHK03에서 광범위한 최첨단 방법들과 비교하여 우수한 Rank-1 및 mAP를 달성한다.
- Market-1501 (Single-Query)에서 HA-CNN은 91.2% R1 및 75.7% mAP를, Multi-Query에서는 93.8% R1 및 82.8% mAP를 달성한다.
- DukeMTMC-ReID에서 HA-CNN은 80.5% R1 및 63.8% mAP를 달성한다.
- CUHK03 (Deteced, 767/700 split)에서 HA-CNN은 41.7% mAP를 달성하고 41.7%? R1?; 비교 방법 중 최고는 44.4% R1 및 41.0% mAP로 표기되며 레이블된 버전이고 41.7% R1 및 38.6% mAP은 검출된 버전이다(참고: 숫자는 보고된 대로 추출된 것이다).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.