QUICK REVIEW

[논문 리뷰] Selective Refinement Network for High Performance Face Detection

Cheng Chi, Shifeng Zhang|arXiv (Cornell University)|2018. 09. 07.

Face recognition and analysis참고 문헌 38인용 수 23

한 줄 요약

이 논문은 선택적 이단계 분류 및 회귀를 통해 잡음 많은 양성 예측을 줄이고 정확도를 향상시켜 얼굴 검출 성능을 향상시키는 단일 스포트 얼굴 검출기인 선택적 정련 네트워크(SRN)를 제안한다. AFW, PASCAL Face, FDDB, WIDER FACE 데이터셋에서 최신 기준 성능을 달성하며, WIDER FACE 검증 세트에서 96.4% AP, 하드 세트에서 90.2% AP를 기록한다.

ABSTRACT

High performance face detection remains a very challenging problem, especially when there exists many tiny faces. This paper presents a novel single-shot face detector, named Selective Refinement Network (SRN), which introduces novel two-step classification and regression operations selectively into an anchor-based face detector to reduce false positives and improve location accuracy simultaneously. In particular, the SRN consists of two modules: the Selective Two-step Classification (STC) module and the Selective Two-step Regression (STR) module. The STC aims to filter out most simple negative anchors from low level detection layers to reduce the search space for the subsequent classifier, while the STR is designed to coarsely adjust the locations and sizes of anchors from high level detection layers to provide better initialization for the subsequent regressor. Moreover, we design a Receptive Field Enhancement (RFE) block to provide more diverse receptive field, which helps to better capture faces in some extreme poses. As a consequence, the proposed SRN detector achieves state-of-the-art performance on all the widely used face detection benchmarks, including AFW, PASCAL face, FDDB, and WIDER FACE datasets. Codes will be released to facilitate further studies on the face detection problem.

연구 동기 및 목표

작은 얼굴에 대해 특히 높은 재현율 수준에서 높은 가짜 양성 비율을 해결하기 위해.
점차 증가하는 IoU 임계값에서 경계 박스 정위치 정확도를 향상시키기 위해.
네트워크의 초기 단계에서 간단한 음성 앵커를 조기에 필터링하여 계산 비용과 탐색 공간을 줄이기 위해.
다양한 수신 필드를 통해 극단적인 자세를 가진 얼굴에 대한 검출 내성 향상하기 위해.
다단계 추론에 의존하지 않고도 여러 벤치마크 데이터셋에서 최신 기준 성능을 달성하기 위해.

제안 방법

선택적 이단계 분류(STC) 모듈은 낮은 수준의 특징 맵으로부터 단순한 음성 앵커를 필터링하여 후속 분류의 탐색 공간을 줄인다.
선택적 이단계 회귀(STR) 모듈은 고수준 특징 맵에서 앵커의 위치와 크기를 근사적으로 조정하여 최종 회귀기의 초기화를 향상시킨다.
수신 필드 향상(RFE) 블록은 특징 레이어에 통합되어 수신 필드 크기를 다양화하여 극단적인 자세를 가진 얼굴 검출 성능을 향상시킨다.
SRN 프레임워크는 앵커 기반 단일 스포트 검출기와 특징 피라미드 네트워크를 기반으로 하며, 특정 특징 레벨에 대해 STC와 STR를 선택적으로 적용한다.
STC 모듈은 포지티브-네거티브 불균형 문제를 다루기 위해 포칼 손실로, STR 모듈은 정확도를 높이기 위해 스무스 L1 손실로 엔드 투 엔드로 훈련된다.
IoU 임계값이 0.8에 이르는 표준 메트릭(예: AP 및 PR 곡선)을 사용해 여러 벤치마크에서 네트워크를 평가한다.

실험 결과

연구 질문

RQ1선택적 이단계 분류가 작은 얼굴에 특히 영향을 미치는 가짜 양성 예측을 줄이면서 재현율을 유지할 수 있는가?
RQ2고수준 특징에서 앵커 위치를 근사적으로 정렬하는 것이 더 정확한 최종 경계 박자를 제공하는가?
RQ3RFE를 통한 다양한 수신 필드 통합이 극단적인 자세를 가진 얼굴의 검출 성능에 어떤 영향을 미치는가?
RQ4제안된 SRN 프레임워크가 오염 및 흐림과 같은 극한 조건을 포함한 여러 벤치마크에서 최신 기준 성능을 달성할 수 있는가?
RQ5각 구성 요소(STC, STR, RFE)가 전체 검출 정확도 및 정밀도-재현율 트레이드오프에 기여하는 정도는 어떠한가?

주요 결과

SRN은 WIDER FACE 검증 세트에서 96.4% AP를 기록했으며, 하드 세트에서는 90.2%를 달성하여 이전 모든 방법을 능가한다.
WIDER FACE 하드 세트에서 SRN은 테스트 세트에서 89.7% AP를 기록했으며, 이는 이전 최신 기준 성능을 크게 뛰어넘는다.
STR만을 사용할 경우, IoU=0.8일 때 AP가 38.2%로 RetinaNet의 28.5%보다 높아져 정위치 정확도 향상이 확인된다.
STC 모듈은 양성 대 음성 비율을 38배 향상시켜 재현율이 높은 수준에서 정확도 효율성을 크게 향상시키고 가짜 양성 예측을 줄였다.
RFE 블록은 각각 쉬운, 중간, 하드 세트에서 AP를 0.3%, 0.3%, 0.1% 향상시켜 극단적인 자세에서의 효과를 입증했다.
STC와 STR를 함께 사용할 경우, SRN은 하드 세트에서 96.1% AP를 기록하여 두 모듈 간 상호보완적 성능 향상을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.