QUICK REVIEW

[논문 리뷰] Batch DropBlock Network for Person Re-identification and Beyond

Zuozhuo Dai, Mingqiang Chen|arXiv (Cornell University)|2018. 11. 17.

Video Surveillance and Tracking Methods참고 문헌 79인용 수 23

한 줄 요약

이 논문은 인물 재식별 및 이미지 검색을 위한 배치 드롭블록 정규화를 갖춘 두 가지 브랜치 컨볼루션 신경망인 배치 드롭블록 네트워크(BDB)를 제안한다. 훈련 중 특성 맵에 걸쳐 구조적 드롭아웃을 적용함으로써 BDB는 가림 및 시점 변화에 대한 특성의 강건성을 향상시키며, 여러 벤치마크에서 최신 기술 수준의 성능을 달성한다. 특히 재랭킹을 적용한 Market1501에서 95.8%의 Rank-1 정확도를 기록하였다.

ABSTRACT

Since the person re-identification task often suffers from the problem of pose changes and occlusions, some attentive local features are often suppressed when training CNNs. In this paper, we propose the Batch DropBlock (BDB) Network which is a two branch network composed of a conventional ResNet-50 as the global branch and a feature dropping branch. The global branch encodes the global salient representations. Meanwhile, the feature dropping branch consists of an attentive feature learning module called Batch DropBlock, which randomly drops the same region of all input feature maps in a batch to reinforce the attentive feature learning of local regions. The network then concatenates features from both branches and provides a more comprehensive and spatially distributed feature representation. Albeit simple, our method achieves state-of-the-art on person re-identification and it is also applicable to general metric learning tasks. For instance, we achieve 76.4% Rank-1 accuracy on the CUHK03-Detect dataset and 83.0% Recall-1 score on the Stanford Online Products dataset, outperforming the existing works by a large margin (more than 6%).

연구 동기 및 목표

가림 및 시점 변화와 같은 도전적인 조건에서 인물 재식별의 특성 강건성을 향상시키기 위해.
표준 데이터 증강 및 정규화 기법의 한계를 해결하여 공간적으로 분포된, 주의를 고려한 특성을 학습하기 위해.
정확한 이미지 정렬이 필요하지 않은 일반화 능력을 향상시키는 훈련 전략을 개발하기 위해.
재식별 및 제로샷 이미지 검색 작업에서 배치 드롭블록의 효과를 평가하기 위해.

제안 방법

표현 능력을 향상시키기 위해 고차원 특성 임bedding을 학습하는 두 가지 브랜치 네트워크 아키텍처를 제안한다.
훈련 중 특성 맵의 전체 공간 블록을 무작위로 마스킹하는 구조적 드롭아웃 기법인 배치 드롭블록을 도입한다.
드롭 블록의 높이와 너비를 제어하기 위해 다른 드롭 비율(r_h, r_w)을 적용하여 공간 불변성을 장려한다.
매칭 점수를 향상시키기 위해 재랭킹 후처리를 사용한다.
기본 모델과 BDB 모델 간의 주의 분포를 비교하기 위해 클래스 활성화 맵(CAMs)을 활용한다.
정렬된 상태와 비정렬된 상태 모두에서 Market1501, DukeMTMC-reID, CUHK03, CUB200, CARS196 등의 다양한 데이터셋에서 성능을 평가한다.

실험 결과

연구 질문

RQ1구조적 드롭아웃(배치 드롭블록)이 가림 및 시점 변화 하에서 인물 재식별의 특성 강건성을 향상시킬 수 있는가?
RQ2표준 드롭아웃 및 데이터 증강 기법과 비교해 배치 드롭블록은 공간적으로 분포된 특성 및 구분 능력을 향상시키는 데 어떤가?
RQ3입력 이미지가 대략적으로 정렬되어 있지 않은 경우에도 BDB 네트워크가 성능을 유지하는가? 이는 실제 데이터에 대한 일반화 능력을 시사한다.
RQ4재랭킹이 여러 벤치마크에서 BDB 네트워크의 성능을 어느 정도 향상시키는가?
RQ5BDB의 클래스 활성화 맵은 표준 ResNet과 비교해 어떤 방식으로 관련 객체 부분을 더 잘 강조하는가?

주요 결과

Market1501 데이터셋에서 재랭킹을 적용한 BDB는 95.8%의 Rank-1 정확도와 93.7%의 mAP를 기록하여 기준 모델 및 이전 방법들을 능가한다.
자르기 없이 사용한 CUB200 및 CARS196에서, 배치 드롭블록이 없는 BDB($r_h=0, r_w=0$)는 각각 67.8%와 87.8%의 Recall@1을 기록하여 드롭블록이 있는 버전보다 우수한 성능을 보였다.
클래스 활성화 맵 분석 결과, BDB는 기준 모델이 국한된 구분 가능한 영역에 집중하는 것과 달리, 신체 부위 및 객체 영역 전반에 걸쳐 더 공간적으로 분포된 특성과 두드러진 특징을 학습함을 확인하였다.
재랭킹은 모든 데이터셋에서 Rank-1 및 mAP 점수를 일관되게 향상시켰으며, CUHK03-Label에서 최고로 87.4%의 Rank-1 및 88.7%의 mAP를 기록하였다.
시각화 결과, BDB는 자세 불변 특징을 학습하여 뒷모습 쿼리에서도 정확한 신원을 성공적으로 검색함을 확인하였다.
이미지 검색 작업(CUB200, CARS196, In-Shop, Stanford)에서 BDB는 기준 모델 대비 더 깔끔하고 국소화된 CAMs를 생성하며 배경 잡음 요소를 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.