Skip to main content
QUICK REVIEW

[논문 리뷰] Face Attention Network: An Effective Face Detector for the Occluded Faces

Jianfeng Wang, Ye Yuan|arXiv (Cornell University)|2017. 11. 20.
Face recognition and analysis참고 문헌 36인용 수 144
한 줄 요약

FAN은 앵커 레벨 주의(attention)와 표적 데이터 증강을 도입하여 단일 스테이지 RetinaNet 기반 탐지기에서 가려진 얼굴 탐지를 개선하고, 속도를 희생하지 않으면서 WiderFace와 MAFA에서 최첨단 결과를 달성한다.

ABSTRACT

The performance of face detection has been largely improved with the development of convolutional neural network. However, the occlusion issue due to mask and sunglasses, is still a challenging problem. The improvement on the recall of these occluded cases usually brings the risk of high false positives. In this paper, we present a novel face detector called Face Attention Network (FAN), which can significantly improve the recall of the face detection problem in the occluded case without compromising the speed. More specifically, we propose a new anchor-level attention, which will highlight the features from the face region. Integrated with our anchor assign strategy and data augmentation techniques, we obtain state-of-art results on public face detection benchmarks like WiderFace and MAFA. The code will be released for reproduction.

연구 동기 및 목표

  • 가면(mask)과 선글라스를 포함한 가려진 얼굴에 대한 탐지 문제를 다룬다.
  • 가려진 얼굴에 대한 재현율(recall)을 증가시키되 거짓 양성을 늘리지 않는다.
  • 앵커 레벨 주의(attention)를 갖춘 실용적인 단일 스테이지 탐지기를 제안한다.
  • WiderFace 및 MAFA 벤치마크에서 최첨단 성능을 달성한다.

제안 방법

  • 피처 피라미드 네트워크(FPN) 백본을 사용한 다중 스케일 얼굴 탐지를 위한 RetinaNet에서 영감을 받은 일-stage 탐지기 사용.
  • 앵커 레벨 주의 도입: 각 레이어의 주의 맵을 실제 앵커로 감독하여 얼굴 영역을 강조하고 비얼굴 영역을 억제.
  • 얼굴을 16^2에서 406^2 픽셀까지 커버하도록 다섯 개 피라미드 레벨과 두 가지 가로세로 비율(1 및 1.5)을 갖는 앵커 배정 전략 설계.
  • -Dot-product와의 컨텍스트 유지 를 위해 주의 맵을 피처 맵과의 내적(dot-product) 이전에 지수 연산을 거쳐 전달하는 주의 모듈 학습.
  • 가려짐을 더 만든 가려짐 사례를 생성하고 가려짐 다양성을 증가시키기 위한 데이터 증강 적용.
  • 초점 분류 손실(focal loss), 매끄러운 L1 회귀 손실, 주의에 대한 픽셀 단위 시그모드 교차 엔트로피를 결합한 다중 작업 손실로 최적화.

실험 결과

연구 질문

  • RQ1앵커 레벨 주의가 거짓 양성을 증가시키지 않으면서 가려진 얼굴의 재현율을 향상시킬 수 있는가?
  • RQ2스케일 인식 앵커 설계가 가려진 씬에서 서로 다른 크기의 얼굴 탐지에 어떤 영향을 미치는가?
  • RQ3가려짐-oriented 데이터 증강이 탐지기의 성능에 어떤 영향을 미치는가?
  • RQ4FAN이 속도를 유지하면서 WiderFace 및 MAFA 데이터셋에서 최첨단 결과를 달성하는가?

주요 결과

  • FAN은 WiderFace 테스트 세트에서 최첨단 AP를 달성: 쉽다 0.946, 중간 0.936, 어려움 0.885.
  • FAN은 MAFA 마스크 부분에서 가려진 얼굴 탐지를 크게 향상시켜 이전 탐지기들을 능가한다.
  • 기여요소를 포함한 제거실험(ablation)은 앵커 레벨 주의와 데이터 증강이 특히 가려짐 상황에서 성능 향상에 기여함을 보인다.
  • 추론 속도는 입력 크기에 상관없이 빠르게 유지되며, 예를 들어 TITAN Xp에서 최소 크기 400일 때 23.8 ms의 속도와 경쟁력 있는 AP를 보인다.
  • 앵커 설정(스케일 커버리지)이 성능에 실질적으로 영향을 미치며, FAN이 설계한 앵커가 RetinaNet 기반의 기준선을 능가한다.
  • 다중 정제(dense anchors, attention, data augmentation, multi-scale)를 포함한 FAN은 검증에서 AP 0.953–0.888, WiderFace 테스트에서 0.946–0.885까지, MAFA 가려짐(subset)에서 mAP 88.3을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.