QUICK REVIEW

[논문 리뷰] Robust and High Performance Face Detector

Yundong Zhang, Xiang Xu|arXiv (Cornell University)|2019. 01. 06.

Face recognition and analysis참고 문헌 39인용 수 23

한 줄 요약

이 논문은 VIM-FD를 제안하며, 고밀도 컨벌루션 네트워크(DenseNet-121)를 백본으로 사용하고, 데이터-앵커 샘플링을 통한 데이터 증강, 최대-내외 레이블 및 앵커 매칭, 주의 메커니즘을 통한 향상된 특징 감독을 포함한 고도로 발전된 기법들을 통합한 강력하고 고성능의 얼굴 검출기이다. 도전적인 WIDER FACE 벤치마크에서 VIM-FD는 어려움 수준이 낮은 부분에서 96.7% AP, 중간 수준에서 95.7% AP, 높은 어려움 수준에서 90.7% AP를 기록하여 모든 어려움 수준에서 뛰어난 정확도를 보이며, 특히 작은 얼굴과 가림된 얼굴에 대해 뛰어난 성능을 보인다.

ABSTRACT

In recent years, face detection has experienced significant performance improvement with the boost of deep convolutional neural networks. In this report, we reimplement the state-of-the-art detector SRN and apply some tricks proposed in the recent literatures to obtain an extremely strong face detector, named VIM-FD. In specific, we exploit more powerful backbone network like DenseNet-121, revisit the data augmentation based on data-anchor-sampling proposed in PyramidBox, and use the max-in-out label and anchor matching strategy in SFD. In addition, we also introduce the attention mechanism to provide additional supervision. Over the most popular and challenging face detection benchmark, i.e., WIDER FACE, the proposed VIM-FD achieves state-of-the-art performance.

연구 동기 및 목표

스케일, 자세, 가림, 조명의 극단적인 변동성에 대응하는 얼굴 검출의 도전 과제를 해결하기 위해 검출기의 강건성을 향상시키기 위해.
최근의 데이터 증강, 앵커 매칭, 주의 메커니즘 기술들을 통합하여 얼굴 검출 성능을 향상시키기 위해.
특히 작은 얼굴과 검출이 어려운 얼굴에 대해 WIDER FACE 벤치마크에서 정확도와 일반화 능력을 최적화하기 위해.
최신 기술들을 활용하여 기존의 최상위 성능를 기록한 검출기 [1]를 재현하고 개선하여 뛰어난 성능을 달성하기 위해.
분류, 회귀, 주의지도를 동시에 최적화할 수 있는 통합적이고 엔드 투 엔드로 훈련 가능한 얼굴 검출기를 개발하기 위해.

제안 방법

표현 학습을 향상시키기 위해 특징의 조밀함과 기울기 흐름의 이점을 활용하기 위해 백본 네트워크로 DenseNet-121을 채택한다.
학습 중에 얼굴과 앵커의 스케일 근접도를 기반으로 이미지를 동적으로 재조정하여 스케일 분포의 다양성을 높이는 데이터-앵커 샘플링 증강 기법을 구현한다.
어려운 예제에서의 잘못된 분류를 줄이고 양성 샘플 선택을 향상시키기 위해 최대-내외 레이블 할당 및 앵커 매칭 전략을 적용한다.
가림되거나 품질이 낮은 얼굴의 특징 학습을 향상시키고 배경 노이즈를 억제하기 위해 앵커 수준에서 주의 메커니즘을 통합한다.
분류, 회귀, 주의맵 예측을 동시에 수행할 수 있도록 세 부분으로 나뉜 네트워크 아키텍처를 설계한다: STC(1단계 분류기), STR(1단계 회귀기), 예측 서브넷.
다중 작업 감독을 가능하게 하기 위해 STC, STR, ATT 손실을 조합한 하이브리드 손실 함수를 사용하여 엔드 투 엔드 훈련을 최적화한다.

실험 결과

연구 질문

RQ1데이터-앵커 샘플링 통합이 다양한 스케일에서 얼굴 검출의 일반화 능력과 강건성에 어떤 영향을 미치는가?
RQ2WIDER FACE 데이터셋에서 다른 아키텍처와 비교해 볼 때 DenseNet-121을 백본으로 사용할 경우 검출 정확도에 어떤 영향을 미치는가?
RQ3최대-내외 앵커 매칭 전략은 양성 샘플 선택을 어떻게 향상시키고, 거짓 양성 샘플을 줄이는가?
RQ4주의 메커니즘이 가려진 얼굴나 품질이 낮은 얼굴의 검출 성능을 어떤 방식으로 향상시키는가?
RQ5다양한 고급 기술들의 조합이 WIDER FACE 벤치마크에서 최상의 성능을 달성하는 데 얼마나 기여하는가?

주요 결과

VIM-FD는 WIDER FACE 검증 세트의 Easy 부분에서 96.7% 평균 정밀도(AP)를 기록하여 이전의 모든 방법보다 뛰어난 성능을 보였다.
VIM-FD는 Medium 부분에서 95.7% AP를 기록했으며, 최고 성능를 기록한 방법(DSFD)과 동일한 성능를 달성했지만, 더 뛰어난 강건성과 일반화 능력을 보였다.
VIM-FD는 Hard 부분에서 90.7% AP를 기록하여 비교된 모든 방법들 중에서 가장 높은 성능를 보였으며, 작은 얼굴과 가려진 얼굴에 대해 뛰어난 성능를 입증했다.
정성적 결과 분석을 통해 VIM-FD는 세계에서 가장 큰 손님의 자화상에서 1,000장의 얼굴 중 890장을 성공적으로 검출하여 실제 환경에서의 강력한 강건성을 확인했다.
WIDER FACE에서의 시각화 결과에 따르면, 블러, 표정, 조명, 메이크업, 가림, 자세 등의 다양한 속성에 대해 모델이 잘 일반화됨을 확인할 수 있었다.
광범위한 추상화 분석 결과 각 구성 요소—데이터 증강, 백본 선택, 앵커 매칭, 주의 메커니즘—이 최종 성능 향상에 기여하는 바가 크다는 것이 입증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.