Skip to main content
QUICK REVIEW

[논문 리뷰] Feature Agglomeration Networks for Single Stage Face Detection

Jialiang Zhang, Xiongwei Wu|arXiv (Cornell University)|2017. 12. 03.
Face recognition and analysis참고 문헌 28인용 수 25
한 줄 요약

이 논문은 계층적 '결합 연결' 모듈을 통해 고수준 의미 특징을 저수준 특징 맵에 융합함으로써 다중 척도 특징 표현을 향상시키는 새로운 단일 단계 얼굴 검출기인 특징 통합 네트워크(FANet)를 제안한다. 이 방법은 WIDER FACE의 하드, 미디엄, 이지 셋에서 각각 95.6, 94.7, 89.5의 SOTA mAP 성능을 달성하면서도 VGA 해상도 이미지에서 실시간 추론 속도 35.6 FPS를 유지한다.

ABSTRACT

Recent years have witnessed promising results of face detection using deep learning. Despite making remarkable progresses, face detection in the wild remains an open research challenge especially when detecting faces at vastly different scales and characteristics. In this paper, we propose a novel simple yet effective framework of "Feature Agglomeration Networks" (FANet) to build a new single stage face detector, which not only achieves state-of-the-art performance but also runs efficiently. As inspired by Feature Pyramid Networks (FPN), the key idea of our framework is to exploit inherent multi-scale features of a single convolutional neural network by aggregating higher-level semantic feature maps of different scales as contextual cues to augment lower-level feature maps via a hierarchical agglomeration manner at marginal extra computation cost. We further propose a Hierarchical Loss to effectively train the FANet model. We evaluate the proposed FANet detector on several public face detection benchmarks, including PASCAL face, FDDB and WIDER FACE datasets and achieved state-of-the-art results. Our detector can run in real time for VGA-resolution images on GPU.

연구 동기 및 목표

  • 실세계 환경에서 극적으로 다른 척도로 나타나는 얼굴, 특히 작은 얼굴을 탐지하는 데 도전하는 것.
  • 풍부한 의미적 맥락을 지닌 다중 척도 특징을 효과적으로 융합하여 단일 단계 얼굴 검출기의 특징 표현을 향상시키는 것.
  • 다중 척도 탐지에 대해 안정적이고 효과적인 엔드 투 엔드 학습을 가능하게 하는 학습 체계를 개발하는 것.
  • 추론 속도를 희생시키지 않고도 SOTA 성능을 달성하여 실시간 배포가 가능한 것.

제안 방법

  • 고수준 의미 특징을 저수준 고해상도 특징 맵에 계층적으로 융합하여 맥락 이해도를 향상시키기 위해 '결합 연결' 모듈을 도입한다.
  • 스킵 연결을 사용하는 FPN과 달리, 모든 척도에서 의미적 풍부함을 향상시키는 새로운 계층적 특징 피라미드를 구성한다.
  • 다중 수준에서 예측을 감독함으로써 엔드 투 엔드 학습을 이끄는 계층적 손실(Hierarchical Loss, HL)을 사용하여 특징의 구분 능력을 향상시킨다.
  • 깊은 백본(예: VGG16)을 기반으로 단일 패assing 추론 기반 구조를 사용하여 다중 척도 특징을 활용하면서도 실시간 속도를 유지한다.
  • 경우의 수가 많은 예외적인 예제, 특히 작은 얼굴에 대해 성능을 향상시키기 위해 추론 중에 다중 척도 테스트를 적용한다.
  • 3단계 계층적 손실을 사용하여 엔드 투 엔드로 모델을 학습함으로써 학습 안정성과 다양한 척도 간의 특징 학습 능력을 향상시킨다.

실험 결과

연구 질문

  • RQ1간단하면서도 효과적인 특징 통합 메커니즘이 다양한 얼굴 척도에서 단일 단계 얼굴 검출 성능을 향상시킬 수 있는가?
  • RQ2더 깊은 층에서 유도된 의미적 신호를 활용한 계층적 특징 통합이 작은 얼굴 탐지 정확도를 어떻게 향상시키는가?
  • RQ3계층적 손실과 같은 새로운 손실 함수가 다중 척도 얼굴 검출에서 학습 안정성과 특징의 구분 능력을 향상시킬 수 있는가?
  • RQ4제안된 FANet 프레임워크가 WIDER FACE, FDDB, PASCAL FACE와 같은 다양한 벤치마크에서 얼마나 잘 일반화되는가?

주요 결과

  • FANet는 WIDER FACE 하드 셋에서 95.6%의 SOTA mAP 성능을 달성하여 S3FD 및 Face R-FCN를 포함한 이전 방법들을 초월한다.
  • WIDER FACE 검증 셋에서 FANet는 미디엄 셋에서 94.7% mAP, 하드 셋에서 89.5% mAP를 기록하여 척도 변화에 대한 강력한 내성성을 입증한다.
  • FDDB 벤치마크에서 FANet는 이산 및 연속 ROC 곡선 양쪽에서 SOTA 성능을 달성하여 뛰어난 일반화 능력과 탐지 신뢰도를 보여준다.
  • PASCAL FACE 데이터셋에서 FANet는 98.78%의 mAP를 기록하여 S3FD(98.45%) 및 이전의 다른 방법들을 압도한다.
  • NVIDIA GTX 1080Ti GPU를 사용할 때 FANet는 VGA 해상도 이미지에서 35.6 FPS로 실행되어 실시간 추론 능력을 확인한다.
  • 다중 척도 테스트는 특히 어려운 예제에서 성능을 추가로 향상시키며, 최종 결과는 단일 척도 추론 대비 뚜렷한 성능 향상을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.