QUICK REVIEW

[논문 리뷰] Joint Multi-view Face Alignment in the Wild

Jiankang Deng, George Trigeorgis|arXiv (Cornell University)|2017. 08. 20.

Face recognition and analysis참고 문헌 6인용 수 32

한 줄 요약

이 논문은 제약 없는 환경에서 극한의 자세 변화가 있는 상황에서도 동시에 얼굴을 검출하고 다수의 얼굴 키포인트(반면형에 대해 68개, 측면형에 대해 39개)를 정렬하는 새로운 연합 다중시점 컨볼루션 네트워크인 멀티뷰 아워글라스 모델(MHM)을 제안한다. 군집에서 세분화하는 전략과 정면 및 측면 얼굴을 함께 훈련시킴으로써, 얼굴 정렬, 탄성 얼굴 추적(300VW), 얼굴 검출(FDDB, MALF) 분야에서 최신 기술 수준(SOTA)의 성능을 달성하며, 높은 정밀도 수준에서 재현율을 크게 향상시킨다.

ABSTRACT

The de facto algorithm for facial landmark estimation involves running a face detector with a subsequent deformable model fitting on the bounding box. This encompasses two basic problems: i) the detection and deformable fitting steps are performed independently, while the detector might not provide best-suited initialisation for the fitting step, ii) the face appearance varies hugely across different poses, which makes the deformable face fitting very challenging and thus distinct models have to be used (\eg, one for profile and one for frontal faces). In this work, we propose the first, to the best of our knowledge, joint multi-view convolutional network to handle large pose variations across faces in-the-wild, and elegantly bridge face detection and facial landmark localisation tasks. Existing joint face detection and landmark localisation methods focus only on a very small set of landmarks. By contrast, our method can detect and align a large number of landmarks for semi-frontal (68 landmarks) and profile (39 landmarks) faces. We evaluate our model on a plethora of datasets including standard static image datasets such as IBUG, 300W, COFW, and the latest Menpo Benchmark for both semi-frontal and profile faces. Significant improvement over state-of-the-art methods on deformable face tracking is witnessed on 300VW benchmark. We also demonstrate state-of-the-art results for face detection on FDDB and MALF datasets.

연구 동기 및 목표

독립적인 얼굴 검출 및 키포인트 피팅의 한계를 해결하기 위해, 이는 종종 최적의 초기화와 자세 변화에 대한 일반화 능력이 떨어지는 결과를 초래한다.
특히 자가 가림 영역에서 측면 및 반면형 얼굴의 일관되지 않은 키포인트 주석 문제를 해결하기 위해.
대규모 자세 변화에 걸쳐 얼굴 키포인트를 동시에 추정하는 통합된 딥 러닝 프레임워크를 개발하여, 시야별 모델을 피하고 계산 비용을 줄이기 위해.
공개된 훈련 데이터만을 사용하여 얼굴 검출 및 얼굴 키포인트 정렬에서 최신 기술 수준의 성능을 달성하기 위해.
연합 다중시점 반응 맵을 활용하여 얼굴 검출의 잘못된 양성 결과를 개선함으로써, 높은 정밀도 기준에서 재현율을 향상시키기 위해.

제안 방법

코arse-to-fine 아키텍처를 사용함: 먼저, 작은 키포인트 서브셋을 사용하여 얼굴 검출기가 코arser 얼굴 형태를 추정한다.
유사성 변환(이동, 회전, 스케일링)을 제거한 후, 정밀화 단계에서 조밀한 얼굴 키포인트를 추정한다.
단일 네트워크에서 반면형 및 측면형 얼굴 키포인트를 동시에 회귀하기 위해 새로운 멀티뷰 아워글라스 모델(MHM)을 제안한다.
정면 및 측면 얼굴 형태 간의 구조적 대응 관계를 활용하여 연속적인 자세 변화에 걸쳐 일반화 능력을 향상시킨다.
두 시야 유형에서의 공동 훈련을 통해 모델이 공유 표현을 학습하고, 가림 및 자세 변화에 대한 강건성을 향상시킨다.
고정밀도 기준에서 얼굴 검출의 재현율을 향상시키기 위해 다중시점 반응 맵을 사용하여 고점수의 잘못된 양성 결과를 억제한다.

실험 결과

연구 질문

RQ1제약 없는 이미지에서 대규모 자세 변화가 있는 상황에서도 단일 딥 러닝 모델이 얼굴 검출과 다수의 얼굴 키포인트 정렬을 동시에 수행할 수 있는가?
RQ2정면 및 측면 얼굴에서의 공동 훈련이 일반화 능력을 향상시키고, 시야별 모델의 필요성을 줄이는 데 어떻게 기여하는가?
RQ3공유 특징 학습을 통한 코arse-to-fine 전략이 키포인트 정렬 정확도와 가림 및 자세 변화에 대한 강건성을 향상시키는가?
RQ4연합 다중시점 반응 맵은 어느 정도까지 높은 정밀도 기준에서 얼굴 검출의 재현율을 향상시키는가?
RQ5기준 데이터셋에서 제안된 방법은 최신 기술 수준의 얼굴 검출 및 키포인트 정렬 접근법과 비교해 어떻게 성능을 내는가?

주요 결과

정밀도 기준 99.9%에서 제안된 방법은 기준 모델의 65.1%에서 84.5%로 얼굴 검출 재현율을 향상시켰으며, HR-ER 및 Conv3D를 크게 능가한다.
정밀도 기준 99%에서 재현율은 89.9%에서 90.5%로 향상되었으며, 높은 정밀도 필터링에 대한 강건성을 입증한다.
300VW 기준에서 탄성 얼굴 추적 분야에서 최신 기술 수준의 성능을 달성하였으며, 대규모 자세 변화 시퀀스에서 기존 방법들을 능가한다.
FDDB 데이터셋에서 91% 정밀도에서 재현율 97.76%를 달성하였으며, HeadHunter, ACF, DPM과 같은 오프더쇼프스 검출기들을 능가한다.
MALF 데이터셋에서 학술적 및 상업적 얼굴 검출기 중 최고 성능을 기록하였으며, 특히 자세가 크고 어려운 부분(요각 > 40°)에서 뛰어난 성능을 보였다.
연합 다중시점 반응 맵을 활용하여 잘못된 양성 결과를 감소시켰으며, 97.1% 정밀도에서 94.8% 재현율을 달성하여, 대규모 자세 데이터에서 DenseBox를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.