QUICK REVIEW

[논문 리뷰] FaceBoxes: A CPU Real-time Face Detector with High Accuracy

Shifeng Zhang, Xiangyu Zhu|arXiv (Cornell University)|2017. 08. 17.

Face recognition and analysis참고 문헌 45인용 수 40

한 줄 요약

FaceBoxes는 실시간으로 높은 정확도를 보이는 얼굴 검출기로, CPU 추론을 위해 설계되었으며 경량 네트워크와 빠르게 소화되는 컨볼루션 레이어(RDCL)를 활용해 속도를 높이고, 다중 스케일 컨볼루션 레이어(MSCL)를 통해 다중 스케일 얼굴 검출을 구현한다. VGA 이미지에서 단일 CPU 코어에서 20 FPS를 달성하며, AFW, PASCAL Face, FDDB 벤치마크에서 최신 기술 수준의 성능을 보이며, 소형 얼굴 검출의 정확도를 크게 향상시키는 새로운 앵커 조밀화 전략을 도입한다.

ABSTRACT

Although tremendous strides have been made in face detection, one of the remaining open challenges is to achieve real-time speed on the CPU as well as maintain high performance, since effective models for face detection tend to be computationally prohibitive. To address this challenge, we propose a novel face detector, named FaceBoxes, with superior performance on both speed and accuracy. Specifically, our method has a lightweight yet powerful network structure that consists of the Rapidly Digested Convolutional Layers (RDCL) and the Multiple Scale Convolutional Layers (MSCL). The RDCL is designed to enable FaceBoxes to achieve real-time speed on the CPU. The MSCL aims at enriching the receptive fields and discretizing anchors over different layers to handle faces of various scales. Besides, we propose a new anchor densification strategy to make different types of anchors have the same density on the image, which significantly improves the recall rate of small faces. As a consequence, the proposed detector runs at 20 FPS on a single CPU core and 125 FPS using a GPU for VGA-resolution images. Moreover, the speed of FaceBoxes is invariant to the number of faces. We comprehensively evaluate this method and present state-of-the-art detection performance on several face detection benchmark datasets, including the AFW, PASCAL face, and FDDB. Code is available at https://github.com/sfzhang15/FaceBoxes

연구 동기 및 목표

CPU 기기에서 실시간 속도와 높은 정확도를 동시에 확보하는 데 도전한다.
얼굴 수가 증가할수록 속도가 저하되는 계단식 CNN 방법의 한계를 극복한다.
다양한 얼굴 크기와 외관에 걸쳐 높은 성능을 유지하는 경량이며 종단 간 훈련이 가능한 네트워크를 설계한다.
소형 얼굴 검출의 정확도를 향상시키기 위해 새로운 앵커 조밀화 전략을 통해 정밀도를 높인다.

제안 방법

실시간 CPU 성능을 달성하기 위해 추론 속도를 향상시키기 위해 빠르게 소화되는 컨볼루션 레이어(RDCL)를 도입한다.
수용장역을 풍부하게 하고 다양한 스케일의 앵커 이산화를 가능하게 하기 위해 다중 스케일 컨볼루션 레이어(MSCL)를 제안한다.
특히 소형 얼굴 검출 성능을 향상시키기 위해 다양한 얼굴 스케일 간 앵커 밀도를 균형 있게 조절하는 새로운 앵커 조밀화 전략을 설계한다.
효율적이고 정확한 얼굴 검출을 위해 종단 간 훈련이 가능한 완전 컨볼루션 단일 단계 네트워크 아키텍처를 사용한다.
다양한 얼굴 크기를 커버하기 위해 특징 맵 전반에 걸쳐 다중 스케일 앵커 타일링 메커니즘을 활용한다.
경계 상자 회귀를 위해 교차 엔트로피 손실과 스무스 L1 손실을 종합적으로 사용해 모델을 종단 간 훈련한다.

실험 결과

연구 질문

RQ1단일 단계, 완전 컨볼루션 얼굴 검출기로 CPU에서 실시간 추론을 달성하면서도 높은 정확도를 유지할 수 있는가?
RQ2계산 비용을 증가시키지 않고도 소형 얼굴 검출의 정확도를 향상시키기 위해 앵커 분포를 어떻게 최적화할 수 있는가?
RQ3어떤 아키텍처 구성 요소가 성능 유지를 유지하면서도 CPU에서 고속 추론을 가능하게 하는가?
RQ4앵커 조밀화 전략이 다양한 벤치마크에서 소형 얼굴 검출 성능에 얼마나 기여하는가?
RQ5기존 얼굴 검출기와 비교해 본다면, 제안된 MSCL 및 RDCL 설계가 속도-정확도 트레이드오프 측면에서 어떤가?

주요 결과

FaceBoxes는 VGA 해상도 이미지에서 단일 CPU 코어에서 20 FPS를 달성하며, 이미지 내 얼굴 수에 관계없이 속도가 일정하다.
모델은 GPU에서 125 FPS로 실행되어 강력한 하드웨어 확장성을 보여준다.
FDDB 벤치마크에서 FaceBoxes는 연속 ROC 곡선 기준 96.0% mAP를 기록하며 이전 모든 방법을 능가하는 최신 기술 수준의 성능을 달성했다.
제거 분석 결과, 앵커 조밀화 전략은 FDDB에서 mAP를 1.1% 향상시켜 소형 얼굴 검출에서의 핵심적 역할을 입증했다.
MSCL는 수용장역 다양성과 다양한 스케일 간 앵커 타일링을 향상시켜 FDDB에서 mAP를 1.0% 향상시켰다.
RDCL는 추론 시간을 약 19.3ms 감소시켰고, mAP는 단지 0.1% 감소에 그쳐, 효율성과 정확도 유지 설계의 우수성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.