[논문 리뷰] Mixed High-Order Attention Network for Person Re-Identification
ReID를 위한 고차 주의(HOA)와 다중 HOA 모듈을 활용하고 적대적 정규화를 통해 차수 붕괴를 방지하는 혼합 고차 주의 네트워크(MHN)를 소개하여 세 개의 대형 데이터셋에서 최첨단 성능을 달성한다.
Attention has become more attractive in person reidentification (ReID) as it is capable of biasing the allocation of available resources towards the most informative parts of an input signal. However, state-of-the-art works concentrate only on coarse or first-order attention design, e.g. spatial and channels attention, while rarely exploring higher-order attention mechanism. We take a step towards addressing this problem. In this paper, we first propose the High-Order Attention (HOA) module to model and utilize the complex and high-order statistics information in attention mechanism, so as to capture the subtle differences among pedestrians and to produce the discriminative attention proposals. Then, rethinking person ReID as a zero-shot learning problem, we propose the Mixed High-Order Attention Network (MHN) to further enhance the discrimination and richness of attention knowledge in an explicit manner. Extensive experiments have been conducted to validate the superiority of our MHN for person ReID over a wide variety of state-of-the-art methods on three large-scale datasets, including Market-1501, DukeMTMC-ReID and CUHK03-NP. Code is available at http://www.bhchen.cn/.
연구 동기 및 목표
- 사람 ReID에서 표준 공간 주의와 채널 주의를 넘어서는 보다 풍부한 주의 메커니즘을 제안한다.
- 콘볼루션 활성화의 고차 통계를 모델링하여 보행자 간의 미묘한 부위 간 관계를 포착한다.
- 다양하고 세부 정보를 보존하는 주의 지식을 촉진하여 ReID의 제로샷 학습 문제를 해결한다.
- IDE, PCB 등 인기 백본과 쉽게 통합될 수 있는 모델-독립적 MHN 프레임워크를 제안한다.
제안 방법
- 고차 주의(HOA) 모듈을 제안하며, 로컬 디스크립터의 고차 통계로 주의 맵을 계산하고 매개변수 수를 관리하기 위해 텐서 분해를 포함한 다항 예측기를 사용한다.
- 다중 차수(R) 예측기를 통해 벡터와 유사한 주의 맵 A(x)를 도출하고 공간 위치 전반에 걸쳐 공유된 1×1 컨볼루션으로 구현한다.
- 주의의 비선형성에 대한 두 가지 변형(Eq. 8 대 Eq. 9)을 도입하고 효과를 비교한다.
- 다른 차수의 여러 HOA 모듈을 혼합하여 주의 지식을 풍부하게 하는 Mixed High-Order Attention Network(MHN)을 구성한다.
- 고차 모듈 간의 차수 다양성을 적대적 제약으로 규제하여 고차 모듈이 하위 차수로 붕괴되지 않도록 한다.
- 아이덴티티 로스와 적대적 다양성 로스의 조합(L_ide + λ max-min L_adv)으로 MHN을 최적화한다.
실험 결과
연구 질문
- RQ1고차 통계가 ReID의 전통적인 1차 공간/채널 주의에 비해 어떤 이점을 제공하는가?
- RQ2다른 차수의 여러 HOA 모듈이 제로샷 신분 분할에 대한 로버스트성을 향상시킬 수 있는가?
- RQ3적대적으로 HOA 차원 간 다양성을 강제하는 것이 차수 붕괴를 방지하고 보이지 않는 신분 인식 성능을 향상시키는가?
- RQ4MHN이 IDE와 PCB 백본과 통합될 때 표준 ReID 벤치마크에서의 성능은 어떠한가?
주요 결과
- MHN은 여섯 개 HOA 모듈(MHN-6)을 사용해 IDE 및 PCB 베이스라인을 Market-1501, DukeMTMC-ReID, CUHK03-NP 전반에서 크게 개선한다.
- Market-1501에서 MHN-6 (PCB)는 R-1 95.1, R-5 98.1, R-10 98.9, mAP 85.0으로 이전 방법을 능가한다.
- DukeMTMC-ReID에서 MHN-6 (PCB)는 R-1 89.1, R-5 94.6, R-10 96.2, mAP 77.2로 베이스라인 및 다수의 경쟁자들을 능가한다.
- CUHK03-NP에서 MHN-6 (PCB)는 분할에 따라 R-1 77.2, mAP 65.0–65.4에 도달하며(라벨링: R-1 77.2, 탐지: R-1 71.7, mAP ~65.4), 여러 기존 접근법을 능가한다.
- 적대적 다양성 제약(L_adv)은 차수 붕괴를 효과적으로 방지하고 IDE 및 PCB 변형 모두의 성능을 향상시킨다.
- 비선형 주의 변형(Eq. 9)은 선형 대안(Eq. 8)보다 동등하거나 향상된 결과를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.