QUICK REVIEW

[논문 리뷰] Spatially and Temporally Efficient Non-local Attention Network for Video-based Person Re-Identification

Chih‐Ting Liu, Chih-Wei Wu|arXiv (Cornell University)|2019. 08. 05.

Video Surveillance and Tracking Methods참고 문헌 21인용 수 35

한 줄 요약

이 논문은 NVAN을 도입하여 다층 비디오 특성에 공간-시간 맥락을 내재하고, STE-NVAN으로 계산량을 줄이면서 정확도를 유지하며, MARS에서 최첨단 결과를 달성한다.

ABSTRACT

Video-based person re-identification (Re-ID) aims at matching video sequences of pedestrians across non-overlapping cameras. It is a practical yet challenging task of how to embed spatial and temporal information of a video into its feature representation. While most existing methods learn the video characteristics by aggregating image-wise features and designing attention mechanisms in Neural Networks, they only explore the correlation between frames at high-level features. In this work, we target at refining the intermediate features as well as high-level features with non-local attention operations and make two contributions. (i) We propose a Non-local Video Attention Network (NVAN) to incorporate video characteristics into the representation at multiple feature levels. (ii) We further introduce a Spatially and Temporally Efficient Non-local Video Attention Network (STE-NVAN) to reduce the computation complexity by exploring spatial and temporal redundancy presented in pedestrian videos. Extensive experiments show that our NVAN outperforms state-of-the-arts by 3.8% in rank-1 accuracy on MARS dataset and confirms our STE-NVAN displays a much superior computation footprint compared to existing methods.

연구 동기 및 목표

다중 특성 수준에서 공간 및 시간 정보를 활용하여 견고한 비디오 기반 사람 재식별(Re-ID)을 촉진한다.
CNN 백본에 비지역 주의(attention)을 도입하여 중간 수준 및 고수준 특징을 정제한다.
공간 및 시간 감소를 통해 비지역 주의의 계산 부담을 줄인다.
대형 비디오 기반 Re-ID 벤치마크에서 최첨단 성능을 입증한다.
효율적 변형(STE-NVAN)을 제공하여 우수한 정확도-계산량 트레이드오프를 실현한다.

제안 방법

다중 CNN 특징 수준에 비지역 주의 계층을 삽입하여 시공간 의존성을 포착하는 Non-local Video Attention Network(NVAN)을 도입한다.
Restricted Random Sampling(RRS)을 사용하여 효율적인 학습 및 추론을 위한 프레임 시퀀스를 선택한다.
3D 평균 풀링 followed by 배치 정규화를 수행하는 Feature Pooling Layer(FPL)을 도입한다.
공간 축소 Non-local Layer를 제안하여 특징을 수평 스트라이프로 그룹화하고 어피니티 계산을 THW에서 TS(S 스트라이프)로 감소시킨다.
계층적 구조를 가진 Temporal Reduction으로 각 단계에서 시간 차원을 줄인다.
최종 특징에 대한 교차 엔트로피 손실과 프리-BN 특징에 대한 소마진 배치-하드 트립렛 손실로 손실 함수를 정의한다.
공간 축소와 계층적 시간 축소를 결합하여 FLOPs를 줄이면서 성능을 유지하는 STE-NVAN을 개발한다.

실험 결과

연구 질문

RQ1비지역 주의가 다중 특징 수준에서 효과적으로 통합되어 비디오 기반 Re-ID 성능을 향상시킬 수 있는가?
RQ2정확도를 희생하지 않으면서 비지역 주의의 계산 비용을 어떻게 줄일 수 있는가?
RQ3프레임 샘플링 전략(RRS)이 Re-ID 성능에 어떤 영향을 미치는가?
RQ4NVAN에서 공간 축소 대 시간 축소를 적용할 때 정확도와 계산량의 트레이드오프는 어떠한가?
RQ5STE-NVAN이 FLOPs와 정확도 측면에서 최신 주의 기반 비디오 Re-ID 방법들과 비교해 어떤 이점을 가지는가?

주요 결과

방법	특징	MARS R1	MARS mAP	DukeV R1	DukeV mAP	# FLOP
ResNet-50	FPL	87.3	79.1	95.0	92.7	30.4 G
ResNet-50	max-FPL	86.3	76.6	95.4	92.4	30.4 G
NVAN	FPL	90.0	82.8	96.3	94.9	60.0 G
NVAN+Spatial Reduc.	FPL	89.7	82.5	96.3	94.7	30.4 G
NVAN+Temporal Reduc.	FPL	89.2	81.2	95.6	93.7	40.4 G
STE-NVAN	FPL	88.9	81.2	95.2	93.5	16.5 G

NVAN은 MARS에서 강력한 향상을 달성하여 90.0% R1 및 82.8% mAP에 도달하고, 기존 방법들을 능가한다.
NVAN은 또한 DukeV에서 96.3% R1 및 94.9% mAP를 달성하여 크로스-데이터셋에서도 강한 성능을 보인다.
공간 축소와 시간 축소를 적용하면 FLOPs가 급격히 감소하는 반면 정확도는 최소한으로 감소한다(예: 공간 축소만으로도 R1/mAP가 거의 유지; 시간 축소로 대부분의 성능을 보존).
STE-NVAN은 NVAN 대비 FLOPs를 72.7% 감소시키고 비주목(비-attention) 기반 기준선 대비 45.7% 덜 소모하며, 핵심 케이스에서 약 0.8-1.1%의 R1 하락으로 정확도 손실을 최소화한다.
NVAN과 STE-NVAN은 기존의 주의 기반 비디오 Re-ID 방법들에 비해 우수한 정확도- FLOP 트레이드오프를 제공하며, STE-NVAN이 가장 높은 효율성을 제공한다.
광범위한 어블레이션은 더 많은 샘플 프레임(T)과 더 많은 비지역 계층의 이점을 보여주며 공간 및 시간 축소의 효과를 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.