QUICK REVIEW

[논문 리뷰] Face Detection with the Faster R-CNN

Huaizu Jiang, Erik Learned-Miller|arXiv (Cornell University)|2016. 06. 10.

Face recognition and analysis참고 문헌 1인용 수 36

한 줄 요약

이 논문은 WIDER Face 데이터셋에서 Faster R-CNN 모델을 테일러닝하여 상태 최고 수준의 얼굴 검출 성능를 달성한다. 지역 제안 네트워크(RPN)를 활용해 엔드 투 엔드 학습과 공유된 컨볼루션 특징을 구현함으로써, 기존의 영역 기반 CNN 방법에 비해 더 빠르고 정확한 결과를 얻어 FDDB 및 IJB-A 벤치마크에서 뛰어난 성능을 발휘한다.

ABSTRACT

The Faster R-CNN has recently demonstrated impressive results on various object detection benchmarks. By training a Faster R-CNN model on the large scale WIDER face dataset, we report state-of-the-art results on two widely used face detection benchmarks, FDDB and the recently released IJB-A.

연구 동기 및 목표

Faster R-CNN 프레임워크를 사용해 표준 얼굴 검출 벤치마크에서 최고 성능를 달성하기 위해.
지역 제안 네트워크(RPN)가 얼굴 검출을 위한 고품질의 딥 러닝 기반 객체 제안을 생성하는 데 효과적인지 평가하기 위해.
기존의 영역 기반 CNN 검출기(R-CNN, Fast R-CNN) 및 최근의 다른 얼굴 검출기들을 표준 벤치마크에서 비교하기 위해.
엔드 투 엔드 학습과 공유된 컨볼루션 특징이 검출 속도와 정확도에 미치는 영향을 분석하기 위해.
특히 FDDB와 새로운 IJB-A 벤치마크 간의 성능 차이를 고려해 데이터셋 간 일반화 능력을 평가하기 위해.

제안 방법

대규모 WIDER Face 데이터셋에서 얼굴 검출을 위해 Faster R-CNN 모델을 테일러닝하였다.
엔드 투 엔드로 작동하는 완전 컨볼루션 제안 생성기로 지역 제안 네트워크(RPN)를 사용하였으며, 검출 헤드와 특징을 공유했다.
RPN과 Fast R-CNN 검출 모듈 간에 동일한 컨볼루션 특징 맵을 공유하여 계산량을 줄이고 엔드 투 엔드 학습을 가능하게 하였다.
객체 존재성에 대한 분류 손실과 바운딩 박스 정밀화에 대한 회귀 손실을 포함한 이중 스트림 손실을 사용해 모델을 엔드 투 엔드로 훈련시켰다.
FDDB 및 IJB-A에서 표준 지표를 사용해 검출 성능를 평가하였으며, 이산적 및 연속적 점수를 사용한 ROC 곡선도 포함하였다.
백본 네트워크로 VGG16 아키텍처를 사용하였으며, ImageNet 사전 훈련된 가중치에서 테일러닝하였다.

실험 결과

연구 질문

RQ1대규모 얼굴 데이터셋에서 테일러닝된 Faster R-CNN이 표준 얼굴 검출 벤치마크에서 최고 성능를 달성할 수 있는가?
RQ2Faster R-CNN의 RPN 기반 제안 생성 방식이 수작업 제안(예: EdgeBox) 또는 다른 학습 기반 제안 방법(예: Faceness, DeepBox)에 비해 정확도와 속도 측면에서 어떻게 비교되는가?
RQ3FDDB 및 IJB-A에서 Faster R-CNN과 다른 최근 최고 성능를 보인 얼굴 검출기 간의 성능 격차는 무엇이며, 특히 연속적 점수 기반에서 어떻게 나타나는가?
RQ4Faster R-CNN이 FDDB보다 IJB-A에서 더 잘 작동하는 이유는 무엇이며, 데이터셋 애너테이션 일관성은 어떤 역할을 하는가?
RQ5공유된 특징을 사용한 엔드 투 엔드 학습이 얼굴 검출의 속도와 정확도 향상에 얼마나 기여하는가?

주요 결과

Faster R-CNN은 FDDB 및 IJB-A 모두에서 최고 성능를 기록하였으며, 이질적인 성능를 보이는 11개의 최근 검출기들보다도 더 높은 성능를 보였다. 특히 200개 이상의 가짜 양성 결과가 발생할 경우에 유의미한 우위를 보였다.
FDDB에서 연속적 점수 기반으로는 500개의 가짜 양성 결과에서 진짜 양성률이 0.718로, MultiresHPM에 이어 두 번째로 높은 성능를 기록하였으며, 대부분의 다른 방법들보다 앞서는 성능를 보였다.
최근의 IJB-A 벤치마크에서는 모든 다른 방법들보다 뚜렷하게 뛰어난 성능를 보였으며, 도전적인 다양한 얼굴 이미지에 대한 강력한 일반화 능력을 입증하였다.
R-CNN 및 Fast R-CNN에 비해 성능 향상의 주요 원인은 RPN 모듈이 고품질의 딥 러닝 기반 제안을 생성할 수 있었기 때문이다.
R-CNN 및 Fast R-CNN보다 전체 Faster R-CNN 파이프라인의 속도가 뚜렷하게 빨라졌으며, FDDB 데이터셋에서 이미지당 총 추론 시간이 단 0.38초에 불과했다.
정성적인 결과 분석을 통해 겹치는, 가림을 입은, 극단적인 자세를 가진 얼굴까지도 견고하게 검출하는 것으로 확인되었으며, 이는 모델이 도전적인 케이스에 대해 뛰어난 내성성을 지닌다는 것을 확인시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.