[논문 리뷰] Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification
본 논문은 다양한 다중 공간 주의 모델과 시간적 주의를 갖춘 시공간 주의 프레임워크를 다양성 항으로 정규화하여 영상 기반 사람 재식별을 향상시키는 방법을 제시한다. PRID2011, iLIDS-VID, MARS에서 최첨단 성능을 능가한다.
Video-based person re-identification matches video clips of people across non-overlapping cameras. Most existing methods tackle this problem by encoding each video frame in its entirety and computing an aggregate representation across all frames. In practice, people are often partially occluded, which can corrupt the extracted features. Instead, we propose a new spatiotemporal attention model that automatically discovers a diverse set of distinctive body parts. This allows useful information to be extracted from all frames without succumbing to occlusions and misalignments. The network learns multiple spatial attention models and employs a diversity regularization term to ensure multiple models do not discover the same body part. Features extracted from local image regions are organized by spatial attention model and are combined using temporal attention. As a result, the network learns latent representations of the face, torso and other body parts using the best available image patches from the entire video sequence. Extensive evaluations on three datasets show that our framework outperforms the state-of-the-art approaches by large margins on multiple metrics.
연구 동기 및 목표
- 프레임에서의 차단 및 정렬 오류에도 불구하고 영상 기반 사람 재식별의 강건성을 모티브로 삼는다.
- 다양한 정보를 담은 신체 부위를 자동으로 발견하는 시공간 주의 네트워크를 개발한다.
- 중복을 방지하고 서로 다른 부위 탐지기를 촉진하기 위한 공간 주의의 다양성 정규화를 도입한다.
- 부위별 시공 간 주의로 시간에 걸쳐 영역 수준 특징을 집계하여 촘촘한 영상 표현을 구성한다.
제안 방법
- 각 비디오에서 N 프레임을 선택하기 위해 제한된 난수 샘플링을 사용한다.
- 각 프레임 내에서 구별 가능한 영역을 로컬라이즈하기 위해 다중 공간 주의 모델을 구현한다.
- 해링거 거리 기반의 다양성 정규화 항을 적용하여 서로 다르고 최소한으로 중첩되는 수용 필드를 장려한다.
- 각 프레임의 공간 특징을 계산한 뒤 시간에 걸쳐 부위별 시공 간 주의로 집계하여 각 공간 부위에 대해 x_k를 생성한다.
- K 부위의 x_k를 연결하고 Online Instance Matching(OIM) 손실로 감독한다.
실험 결과
연구 질문
- RQ1다양하고 자동으로 발견된 공간 주의 모델 세트가 프레임 정렬 및 영상 재식별의 차단 처리에 도움을 줄 수 있는가?
- RQ2해링거 거리 기반의 다양성 정규화가 부위 탐지기의 중복성을 줄이고 인식 정확도를 향상시키는가?
- RQ3개별 부위별 시공 간 주의가 프레임별 또는 전체 풀링 기반의 집계보다 영상의 영역 특징을 더 잘 결합하는가?
- RQ4공간 주의 모델의 수(K)가 재식별 성능에 어떤 영향을 미치는가?
- RQ5제안된 방법이 표준 영상 재식별 데이터셋에서 최첨단과 비교했을 때 어떤 성능을 보이는가?
주요 결과
| Method | PRID2011 랭크-1 | iLIDS-VID 랭크-1 | MARS 랭크-1 | MARS mAP |
|---|---|---|---|---|
| Baseline | 82.7 | 61.2 | 73.4 | 58.1 |
| SpaAtn | 84.2 | 64.9 | 74.5 | 59.3 |
| SpaAtn+Q′ | 86.5 | 64.5 | 74.0 | 58.2 |
| SpaAtn+Q | 86.7 | 68.6 | 77.0 | 60.9 |
| SpaAtn+Q+MaxPool | 86.9 | 68.2 | 76.8 | 60.5 |
| SpaAtn+Q+TemAtn | 88.4 | 69.7 | 77.1 | 61.2 |
| SpaAtn+Q+TemAtn+Ind | 93.2 | 80.2 | 82.3 | 65.8 |
- PRID2011, iLIDS-VID, MARS에서 순위-1 및 (MARS의 경우) mAP에서 최첨단 성능을 능가한다.
- 다양한 공간 주의(K>1)가 더 나은 성능을 낳으며 실험에서 최대 이점은 K=6 근처에서 관찰된다.
- 해링거 거리 기반 다양성 정규화는 탐지된 부위의 판별력을 향상시키고 중첩을 줄인다.
- 부위별 레벨의 시간 주의가 프레임별 또는 글로벌 풀링 기반보다 더 강한 성능을 보인다.
- 최종 SpaAtn+Q+TemAtn+Ind 구성은 PRID2011 93.2%, iLIDS-VID 80.2%, MARS 82.3%의 순위-1을 달성; MARS mAP: 65.8%.
- Baseline 및 여러 변형과 비교할 때 제안된 접근법은 데이터셋 전반에서 일관되게 정확도를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.