QUICK REVIEW

[논문 리뷰] Stacked Dense U-Nets with Dual Transformers for Robust Face Alignment

Jia Guo, Jiankang Deng|arXiv (Cornell University)|2018. 12. 05.

Face recognition and analysis인용 수 24

한 줄 요약

이 논문은 스택드 밀도 U-Net과 이중 트랜스포머를 활용하여 강건한 2D 및 3D 얼굴 랜드마크 정렬을 제안하며, 계산 비용을 증가시키지 않고 특징 표현을 향상시키기 위해 스케일 집합 토폴로지와 채널 집합 블록을 도입한다. 이 방법은 최신 기술 수준의 성능을 달성하여 AFLW2000-3D에서 NME를 5.8% 감소시키고, CFP-FP에서 3D 얼굴 인식 정확도를 98.514%로 향상시켜 자세에 강인한 인식을 가능하게 한다.

ABSTRACT

Facial landmark localisation in images captured in-the-wild is an important and challenging problem. The current state-of-the-art revolves around certain kinds of Deep Convolutional Neural Networks (DCNNs) such as stacked U-Nets and Hourglass networks. In this work, we innovatively propose stacked dense U-Nets for this task. We design a novel scale aggregation network topology structure and a channel aggregation building block to improve the model's capacity without sacrificing the computational complexity and model size. With the assistance of deformable convolutions inside the stacked dense U-Nets and coherent loss for outside data transformation, our model obtains the ability to be spatially invariant to arbitrary input face images. Extensive experiments on many in-the-wild datasets, validate the robustness of the proposed method under extreme poses, exaggerated expressions and heavy occlusions. Finally, we show that accurate 3D face alignment can assist pose-invariant face recognition where we achieve a new state-of-the-art accuracy on CFP-FP.

연구 동기 및 목표

극도로 다양한 자세, 표정, 가림 상태가 있는 비제약적, 실외 환경에서 정확한 얼굴 랜드마크 정렬 문제를 해결한다.
다양한 스케일의 특징과 공간 불변성을 모델링하는 데 한계가 있는 기존의 스택드 U-Net 및 아워글래스 아키텍처의 한계를 극복한다.
계산 비용과 모델 크기를 유지하면서도 얼굴 랜드마크 예측 능력을 향상시킨다.
자세에 강인한 얼굴 인식을 지원하기 위해 강건한 3D 얼굴 정렬을 가능하게 한다. 이는 실생활 시스템에서의 핵심 응용 분야이다.
정확한 3D 정렬이 극한의 자세 변화 상황에서 딥 얼굴 인식 성능을 크게 향상시킨다는 것을 입증한다.

제안 방법

다양한 스케일 간의 특징 융합을 향상시키기 위해 집합 노드에 다운샘플링 경로를 추가함으로써 다중 스케일 표현 학습을 향상시키는 새로운 스케일 집합 토폴로지(SAT)를 제안한다.
채널 차원을 점진적으로 감소시켜 맥락 모델링을 향상시키고 전역 랜드마크 관계를 포착하는 데 기여하는 채널 집합 블록(CAB)을 제안한다.
스택드 밀도 U-Net 내부에 변형 가능 컨볼루션을 통합하여 공간적으로 적응형 특징 학습을 가능하게 하고 기하학적 변형에 대한 강인성을 향상시킨다.
변환된 입력에 대해 랜드마크 예측의 공간 일관성을 강제하기 위해 일관성 손실 함수를 적용하여 공간 불변성을 향상시킨다.
계산 효율성을 유지하기 위해 밀도 U-Net에서 한 개의 다운샘플링 계층을 제거하고 일부 컨볼루션을 딥라이즈드 분리형 컨볼루션으로 대체한다.
특징 맵 내의 장거리 의존성을 모델링하기 위해 이중 트랜스포머(제목에 암시되어 있음)를 활용하여 주목적 영역에 대한 주의를 향상시킨다.

실험 결과

연구 질문

RQ1강화된 다중 스케일 특징 융합 기능을 갖춘 수정된 스택드 밀도 U-Net 아키텍처가 비제약적 얼굴 정렬에서 강인성을 향상시킬 수 있는가?
RQ2채널 기반 특징 융합이 가림 및 표정 변화 상황에서 랜드마크 정렬 성능에 얼마나 기여하는가?
RQ3변형 가능 컨볼루션과 일관성 손실을 통합함으로써 얼굴 랜드마크 예측의 공간 불변성은 얼마나 향상되는가?
RQ4정확한 3D 얼굴 정렬이 자세에 강인한 얼굴 인식 성능을 크게 향상시킬 수 있는가?
RQ5극한의 자세와 가림 상태에서 최신 기술 수준의 모델과 비교해 본다면, 제안된 방법은 얼마나 강인한가?

주요 결과

CFP-FP 데이터셋에서 자세에 강인한 얼굴 인식에 대해 새로운 최신 기술 수준의 정확도 98.514%를 달성하여 이전의 정렬 방법들을 크게 능가한다.
AFLW2000-3D 데이터셋에서 이전 최신 기술 수준 방법 대비 정규화 평균 오차(NME)를 5.8% 감소시켜 NME 3.07%를 달성한다.
정성적 결과를 통해 극한의 조건, 즉 최대 ±90°의 큰 자세 변화, 과도한 표정 변화, 심한 가림 상태에서도 뛰어난 강인성을 보여준다.
초기 검출기 초기화로 인해 고정밀도 범위(NME < 1.2%)에서 일시적으로 최고 성능을 낼 수는 없지만, 어려운 케이스에서는 이를 뛰어넘어 일반화 능력 향상을 보여준다.
3D 랜드마크 정렬을 사용할 경우 기준 방법 대비 CFP-FP에서 인증 오차를 48.24% 감소시켜 자세에 강인한 인식에서의 가치를 입증한다.
SAT와 CAB의 조합은 계산 복잡도나 모델 크기를 증가시키지 않으면서도 모델 용량을 증가시켜 효율적인 추론을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.