QUICK REVIEW

[논문 리뷰] Learning Deep Models for Face Anti-Spoofing: Binary or Auxiliary Supervision

Yaojie Liu, Amin Jourabloo|arXiv (Cornell University)|2018. 03. 29.

Biometric Identification and Security참고 문헌 28인용 수 70

한 줄 요약

본 논문은 CNN-RNN 프레임워크에서 깊이 맵(depth maps)과 rPPG 신호를 통한 보조 감독(auxiliary supervision)을 제안하여 얼굴 위조 방지 일반화 성능을 향상시키고, SiW spoof-in-the-wild 데이터베이스를 도입한다.

ABSTRACT

Face anti-spoofing is the crucial step to prevent face recognition systems from a security breach. Previous deep learning approaches formulate face anti-spoofing as a binary classification problem. Many of them struggle to grasp adequate spoofing cues and generalize poorly. In this paper, we argue the importance of auxiliary supervision to guide the learning toward discriminative and generalizable cues. A CNN-RNN model is learned to estimate the face depth with pixel-wise supervision, and to estimate rPPG signals with sequence-wise supervision. Then we fuse the estimated depth and rPPG to distinguish live vs. spoof faces. In addition, we introduce a new face anti-spoofing database that covers a large range of illumination, subject, and pose variations. Experimental results show that our model achieves the state-of-the-art performance on both intra-database and cross-database testing.

연구 동기 및 목표

이진 감독(binay supervision) 하에서 딥 페이스 안티스푸핑의 일반화 격차를 극복하도록 동기를 부여한다.
구별 가능한 위조 패턴 학습을 안내하기 위한 보조 공간(깊이) 및 시간적(rPPG) 신호를 도입한다.
깊이 맵과 rPPG 신호를 공동으로 추정하여 live/spoof 분류를 수행하는 CNN-RNN 아키텍처를 개발한다.
강인한 시간적 모델링을 위해 특징을 정렬하는 비강체(non-rigid) 정합 레이어를 제안한다.
강건한 평가를 용이하게 하기 위해 큰 조명, 자세 및 기기 변 variation를 포함한 도전적인 SiW 데이터셋을 만들고 공개한다.

제안 방법

픽셀 단위 깊이 손실(pixel-wise depth loss)을 통해 LIVE 대 SPOOF 깊이 특성으로 CNN 학습을 안내하기 위한 깊이 맵 보조를 사용한다.
CNN이 깊이와 특징을 추정하고, 이어서 RNN이 프레임 간 rPPG 신호를 시퀀스 수준의 감독으로 추정하는 CNN-RNN 파이프라인을 학습한다.
추정된 3D 형태를 이용해 CNN 특징 맵을 정렬하는 비강체 등록(non-rigid registration) 계층을 도입하여 일관된 시간 학습을 가능하게 한다.
두 개의 스트리밍 데이터 경로(CNN-stream 및 CNN-RNN-stream)로 학습하고 엔드투엔드 최적화를 위해 이들 간에 교대한다.
테스트 시 깊이와 rPPG 출력의 가중 합에서 제곱 노름의 가중합을 이용해 최종 live/spoof 점수를 계산한다.
라이브 및 스푸프 비디오에 대해 실제 정답처럼 보이는 pseudo-depth maps 및 pseudo-rPPG signals를 수집하여 라이브/스푸프 비디오를 감독 학습에 활용한다.

실험 결과

연구 질문

RQ1깊이 맵과 rPPG 신호의 보조 감독으로 얼굴 위조 방지의 일반화를 이진 분류를 넘어 향상시킬 수 있는가?
RQ2깊이와 rPPG 단서를 unified CNN-RNN 아키텍처에 효과적으로 통합하여 live/spoof 구분을 달성할 수 있는가?
RQ3자세/표정 변 variation에서 강건한 시간 학습을 위한 특징 정렬에 비강체(registration)가 어떤 영향을 미치는가?
RQ4제안된 SiW 데이터베이스가 강건한 안티스푸핑 모델 학습에 충분한 다양성을 제공하는가?
RQ5제안된 접근법이 내부/교차 데이터베이스 평가에서 최첨단 방법과 비교해 어떤 성과를 보이는가?

주요 결과

깊이 및 rPPG 보조 감독을 가진 제안 모델이 내부 및 교차 데이터베이스 테스트에서 최첨단 성능을 달성한다.
CNN-전용 훈련과 CNN-RNN 훈련을 번갈아 가며 수행하는 이중 흐름(two-stream) 훈련 전략이 수렴성과 일반화를 향상시킨다.
더 긴 rPPG 시퀀스 학습(Nf 증가)이 ACER를 감소시켜 시간적 감독의 이점을 보여준다.
비강체 등록 계층이 등록이 없는 모델에 비해 시간적 정렬 및 성능을 향상시킨다.
교차 데이터베이스 결과가 이전 방법 대비 교차 테스트 오류를 크게 감소시켜 강한 일반화를 시사한다.
선험적 분석에서 깊이 감독, rPPG 감독, 비강체 등록 계층의 결합이 최상 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.