QUICK REVIEW

[논문 리뷰] Finding Tiny Faces

Peiyun Hu, Deva Ramanan|arXiv (Cornell University)|2016. 12. 13.

Face recognition and analysis참고 문헌 24인용 수 41

한 줄 요약

이 논문은 다중 작업 특징 계층을 사용하여 서로 다른 스케일에 대해 별도의 검출기를 훈련시킴으로써 미세 얼굴에 대한 스케일별 검출 방법을 제안한다. 이는 맥락을 위해 넓은 수신장 템플릿을 활용한다. WIDER FACE에서 82%의 평균 정밀도를 달성하여 이전 방법 대비 오차를 2배 감소시켜 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Though tremendous strides have been made in object recognition, one of the remaining open challenges is detecting small objects. We explore three aspects of the problem in the context of finding small faces: the role of scale invariance, image resolution, and contextual reasoning. While most recognition approaches aim to be scale-invariant, the cues for recognizing a 3px tall face are fundamentally different than those for recognizing a 300px tall face. We take a different approach and train separate detectors for different scales. To maintain efficiency, detectors are trained in a multi-task fashion: they make use of features extracted from multiple layers of single (deep) feature hierarchy. While training detectors for large objects is straightforward, the crucial challenge remains training detectors for small objects. We show that context is crucial, and define templates that make use of massively-large receptive fields (where 99% of the template extends beyond the object of interest). Finally, we explore the role of scale in pre-trained deep networks, providing ways to extrapolate networks tuned for limited scales to rather extreme ranges. We demonstrate state-of-the-art results on massively-benchmarked face datasets (FDDB and WIDER FACE). In particular, when compared to prior art on WIDER FACE, our results reduce error by a factor of 2 (our models produce an AP of 82% while prior art ranges from 29-64%).

연구 동기 및 목표

물체 인식에서 매우 작은 얼굴(예: 3px 높이)을 검출하는 데 도전하는 데서, 척도 불변성 모델이 시각적 특징의 근본적인 차이로 인해 실패하는 이유를 다루기 위해.
스케일 불변 모델을 넘어서 각 스케일에 맞는 전용 검출기를 훈련시킴으로써, 미세 얼굴 검출 정확도를 향상시키기 위해.
매우 넓은 수신장이 있는 템플릿을 사용하여 맥락적 추론을 향상시켜, 99%가 객체 외부에 위치함으로써, 미세 얼굴 검출에 필수적인 맥락 정보를 캡처하기 위해.
초기화된 딥 네트워크를 극단적인 스케일 범위에 걸쳐 외삽할 수 있도록 하여, 미세 물체 검출의 일반화 능력을 향상시키기 위해.

제안 방법

스케일 불변 모델에 의존하는 대신, 서로 다른 스케일에 대해 별도의 검출기를 훈련시으며, 3px와 300px 얼굴의 시각적 특징이 근본적으로 다름을 인정한다.
단일 딥 특징 계층의 여러 층에서 추출한 특징을 공유하는 다중 작업 학습 프레임워크를 사용하여 효율성을 유지한다.
매우 넓은 수신장을 가진 템플릿을 설계하여, 객체 외부에 99%가 위치하도록 하여, 미세 얼굴 검출에 필수적인 맥락 정보를 캡처한다.
초기화된 딥 네트워크를 활용하고, 광범위한 스케일 범위에 걸쳐 이를 외삽할 수 있는 방법을 제안하여, 극단적인 작은 물체 검출에서 성능을 향상시킨다.
기본 데이터셋에서 최신 기술 수준의 정확도를 달성하면서도 높은 효율성을 유지하기 위해 검출 파이프라인을 최적화한다.

실험 결과

연구 질문

RQ13px 높이의 미세 얼굴에 대한 시각적 특징은 더 큰 얼굴과 어떻게 다를까? 그리고 스케일 불변 모델이 이러한 차이를 충분히 포착할 수 있을까?
RQ2스케일 불변성에 의존하는 대신 각 스케일에 맞는 별도의 검출기를 훈련시키는 것이, 미세 얼굴 검출 성능을 크게 향상시킬 수 있을까?
RQ3매우 넓은 수신장 템플릿을 사용한 맥락적 추론이 얼마나 미세 얼굴 검출 성능 향상에 기여할까?
RQ4초기화된 딥 네트워크를 극단적인 스케일 범위에 걸쳐 효과적으로 외삽할 수 있을까? 이는 미세 물체 검출 성능 향상에 기여할까?
RQ5해상도와 특징 계층의 깊이가 가장 작은 스케일에서 얼굴 검출에 어떤 영향을 미칠까?

주요 결과

제안된 방법은 WIDER FACE 데이터셋에서 82%의 평균 정밀도를 달성하여 이전 최신 기술 수준의 방법 대비 오차를 2배 감소시켰다.
스케일별 검출기를 사용할 경우, 스케일 불변 접근 방식보다 성능이 뛰어나며, 특히 3px 높이의 얼굴에서 두드러진다. 이는 서로 다른 스케일에서 시각적 특징이 근본적으로 다름을 반영한다.
객체 외부에 99%가 위치한 수신장이 넓은 템플릿을 사용한 맥락적 추론은 미세 얼굴 검출 성능을 크게 향상시킨다.
다중 작업 특징 계층은 스케일별 검출기의 효율적인 훈련을 가능하게 하며, 다양한 스케일 간에 깊은 특징을 공유한다.
이 방법은 초기화된 딥 네트워크를 광범위한 스케일 범위에 걸쳐 외삽하여 극단적인 작은 물체 검출 성능을 향상시키는 데 성공했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.