QUICK REVIEW

[논문 리뷰] Pose-Invariant Face Alignment with a Single CNN

Amin Jourabloo, Mao Ye|arXiv (Cornell University)|2017. 07. 19.

Face recognition and analysis참고 문헌 45인용 수 26

한 줄 요약

이 논문은 자세에 영향을 받지 않는 얼굴 정렬을 위한 단일 CNN을 제안하며, 미분 가능한 시각화 레이어를 포함하여 엔드 투 엔드 학습을 가능하게 하고 수작업으로 만든 특징이나 순차적 학습의 필요성을 제거한다. 이 방법은 여러 데이터셋에서 최신 기술 수준의 정확도를 달성하면서도 캐스케이드-오브-CNN 방법 대비 학습 시간을 50% 이상 단축시킨다.

ABSTRACT

Face alignment has witnessed substantial progress in the last decade. One of the recent focuses has been aligning a dense 3D face shape to face images with large head poses. The dominant technology used is based on the cascade of regressors, e.g., CNN, which has shown promising results. Nonetheless, the cascade of CNNs suffers from several drawbacks, e.g., lack of end-to-end training, hand-crafted features and slow training speed. To address these issues, we propose a new layer, named visualization layer, that can be integrated into the CNN architecture and enables joint optimization with different loss functions. Extensive evaluation of the proposed method on multiple datasets demonstrates state-of-the-art accuracy, while reducing the training time by more than half compared to the typical cascade of CNNs. In addition, we compare multiple CNN architectures with the visualization layer to further demonstrate the advantage of its utilization.

연구 동기 및 목표

대형 자세에서의 얼굴 정렬에서 캐스케이드-오브-CNN의 한계를 해결하기 위해 엔드 투 엔드 학습이 불가능하고 수작업으로 만든 특징에 의존하며 학습 속도가 느리다는 점을 해결한다.
3D 얼굴 형태를 재구성하고 2D 이미지를 합성함으로써 특징 개선을 위한 시각화 레이어를 도입함으로써 단계 간 공동 최적화를 가능하게 한다.
중간 단계의 특징 추출을 제거하고 전체 네트워크를 통해 역전파를 가능하게 하여 학습 시간을 단축시키고 특징 학습의 깊이를 향상시킨다.
기존의 캐스케이드 기반 CNN 방법과 비교하여 벤치마크 데이터셋에서 뛰어난 성능과 효율성을 입증한다.

제안 방법

예측된 파라미터에서 3D 얼굴 형태를 재구성하고 가시 정점의 표면 법선을 사용하여 2D 이미지를 합성하는 새로운 시각화 레이어를 도입한다.
시각화 레이어를 미분 가능하게 설계하여 후속 블록에서의 기울기가 이전 블록으로 전파되도록 하여 엔드 투 엔드 학습을 가능하게 한다.
자세 간의 정규화와 얼굴 중심 및 윤곽 영역을 구분하기 위해 공간 마스크를 적용하여 자세에 대한 불변성을 향상시킨다.
다중 시각화 블록으로 구성된 CNN 아키텍처에 시각화 레이어를 통합하며, 각 블록은 이전 블록의 특징을 개선한다.
3D 얼굴 인식에서의 성공을 참고하여 표면 법선을 시각화 레이어의 입력으로 사용하여 얼굴과 카메라 간의 상대 자세를 인코딩한다.
다중 손실 함수를 사용하여 전체 네트워크를 엔드 투 엔드로 학습시키며, 모든 파라미터의 공동 최적화를 가능하게 한다.

실험 결과

연구 질문

RQ1미분 가능한 시각화 레이어를 갖춘 단일 CNN이 대형 자세에서의 얼굴 정렬에서 캐스케이드-오브-CNN보다 더 뛰어난 성능을 낼 수 있는가?
RQ2시각화 레이어가 엔드 투 엔드 학습을 가능하게 하고 수작업으로 만든 특징 추출의 필요성을 제거하는가?
RQ3공간 마스크의 사용이 자세에 대한 불변성과 모델 성능에 어떤 영향을 미치는가?
RQ4기존의 캐스케이드 기반 방법과 비교해 학습 시간을 단축시키면서도 정확도를 유지하거나 향상시킬 수 있는가?
RQ5깊이와 스테이지 수의 관점에서 최적의 시각화 블록 및 레이어 구성은 무엇인가?

주요 결과

제안된 방법은 AFLW 데이터셋에서 평균 NME 4.45%를 달성하여 이전의 캐스케이드-오브-CNN 방법을 능가하는 최신 기술 수준의 성능을 보였다.
최신 기술 수준의 캐스케이드 방법 [18] 대비 50% 이상 학습 시간이 단축되어 2.5일(33 에포크)에 완료되었고, [18]의 7일 대비 빠른 속도를 기록했다.
Titan X GPU에서 테스트 속도는 4.3 FPS로 [18]의 0.6 FPS보다 빠르게 성능 향상을 보였다.
더 복잡한 마스크(Mask 2)를 사용해도 원래 마스크 수준의 성능 향상이 없었으며, 원래 마스크가 충분한 정보를 제공함을 시사했다.
시각화 블록 수를 3개에서 6개로 늘리고 각 블록에 2개의 레이어를 적용함으로써 NME는 4.83%에서 4.45%로 향상되었으며, 더 깊은 아키텍처가 더 나은 결과를 낸다는 것을 입증했다.
수작업으로 만든 특징 없이도 시각화 레이어가 효과적인 특징 학습을 가능하게 하였고, 엔드 투 엔드 최적화 덕분에 네트워크가 더 빠르게 수렴함을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.