QUICK REVIEW

[논문 리뷰] Multi-scale 3D Convolution Network for Video Based Person Re-Identification

Jianing Li, Shiliang Zhang|arXiv (Cornell University)|2018. 11. 19.

Video Surveillance and Tracking Methods참고 문헌 26인용 수 29

한 줄 요약

이 논문은 영상 기반 인물 재식별을 위한 공간적 및 시간적 특징을 동시에 학습하기 위해 다중 척도 3D(M3D) 컨볼루션 레이어와 잔차 주의 레이어(RAL)를 사용하는 이중 스트림 3D 컨볼루션 네트워크를 제안한다. 기존 2D CNN에 압축형 M3D 레이어를 삽입함으로써 높은 성능을 달성하면서도 파라미터 증가량이 단지 4MB에 불과하여 MARS, PRID2011, iLIDS-VID에서 기존 3D CNN 및 SOTA 방법들을 능가한다.

ABSTRACT

This paper proposes a two-stream convolution network to extract spatial and temporal cues for video based person Re-Identification (ReID). A temporal stream in this network is constructed by inserting several Multi-scale 3D (M3D) convolution layers into a 2D CNN network. The resulting M3D convolution network introduces a fraction of parameters into the 2D CNN, but gains the ability of multi-scale temporal feature learning. With this compact architecture, M3D convolution network is also more efficient and easier to optimize than existing 3D convolution networks. The temporal stream further involves Residual Attention Layers (RAL) to refine the temporal features. By jointly learning spatial-temporal attention masks in a residual manner, RAL identifies the discriminative spatial regions and temporal cues. The other stream in our network is implemented with a 2D CNN for spatial feature extraction. The spatial and temporal features from two streams are finally fused for the video based person ReID. Evaluations on three widely used benchmarks datasets, i.e., MARS, PRID2011, and iLIDS-VID demonstrate the substantial advantages of our method over existing 3D convolution networks and state-of-art methods.

연구 동기 및 목표

기존 3D CNN의 모델 크기가 크기 때문에 파라미터 수가 많고 학습이 어려운 문제점을 해결하기 위해.
영상 기반 인물 재식별을 위한 다중 척도 시간적 특징 학습을 압축적이고 효율적인 아키텍처에서 효과적으로 가능하게 하기 위해.
잔차 주의 메커니즘을 통해 공간적 및 시간적 주의 마스크를 동시에 학습시켜 특징의 구분 능력을 향상시키기 위해.
기존 3D CNN 및 SOTA 방법들과 비교해 모델 효율성과 성능 간의 더 나은 트레이드오��을 달성하기 위해.
2D CNN을 통한 공간적 특징과 M3D-CNN를 통한 시간적 특징을 조합한 이중 스트림 아키텍처의 효과성을 입증하기 위해.

제안 방법

다양한 수신장( receptive fields)을 가진 병렬 시간 컨볼루션 커널을 사용하는 다중 척도 3D(M3D) 컨볼루션 레이어를 도입하여 다중 척도 시간적 신호를 캡처한다.
사전 학습된 2D CNN 백본에 M3D 레이어를 삽입함으로써 파라미터 증가를 최소화하면서도 효율적인 시간 모델링을 가능하게 한다.
잔차 방식으로 공간-시간 주의 마스크를 학습할 수 있도록 잔차 주의 레이어(RAL)를 설계하여 구분 능력이 높은 특징을 강화하고 노이즈를 억제한다.
이중 스트림 아키텍처를 사용한다: 한 스트림은 공간/외형 특징을 위해 2D CNN을, 다른 스트림은 시간적 특징을 위해 M3D-CNN를 사용한다.
공간적 및 시간적 특징을 네트워크의 초기 단계에서 융합하여 공동 최적화와 상호 보완적 학습을 가능하게 한다.
모델은 소프트맥스를 사용한 교차 엔트로피 손실로 학습되며, 특징 매칭은 유클리드 거리 기반으로 수행된다.

실험 결과

연구 질문

RQ1모델 크기를 크게 증가시키지 않으면서도 압축형 3D 컨볼루션 네트워크가 영상 ReID에서 다중 척도 시간적 특징을 효과적으로 학습할 수 있는가?
RQ2잔차 주의 메커니즘의 통합이 영상 ReID에서 시간적 특징 학습에 어떻게 기여하는가?
RQ32D CNN과 M3D-CNN를 조합한 이중 스트림 아키텍처가 단일 스트림 또는 RNN 기반 접근법보다 영상 ReID에서 더 우수한 성능을 내는가?
RQ4제안된 방법은 계산 효율성과 학습 용이성을 유지하면서도 SOTA 성능을 달성할 수 있는가?
RQ5MARS, PRID2011, iLIDS-VID와 같이 데이터 스케일이 다양한 다양한 벤치마크에서 모델의 일반화 능력은 어떠한가?

주요 결과

MARS 데이터셋에서 제안된 방법은 mAP 74.06%와 랭크-1 정확도 84.39%를 달성하여 이전 SOTA 방법인 DRSA보다 mAP에서 8.26%p 높은 성능을 보였다.
기본 2D CNN의 mAP를 62.5%에서 69.9%로 향상시키며 파라미터 증가량이 단지 4MB에 그쳐 높은 효율성과 효과성을 입증했다.
186MB의 파라미터를 사용하는 I3D 모델이 MARS에서 62.8%의 mAP를 달성한 것과 비교해, 제안된 M3D-CNN는 훨씬 적은 파라미터로 더 높은 성능(74.06% mAP)을 달성했다.
PRID2011에서 방법은 랭크-1 정확도 94.40%와 랭크-5 정확도 100.00%를 기록하여 이전 SOTA 방법인 AMOC보다 랭크-1에서 10.7%p 높은 성능을 보였다.
iLIDS-VID에서 방법은 랭크-1 정확도 74.00%와 랭크-5 정확도 94.33%를 달성했으며, 다중 태스크 학습과 OIM 손실을 사용한 DRSA와 비교해도 이 dataset에서 더 뛰어난 성능을 보였다.
제거 실험 결과 M3D 레이어와 RAL 모두 성능 향상에 기여하며, 이중 스트림 융합이 가장 우수한 성능을 내는 것으로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.