[논문 리뷰] Stacked Dense U-Nets with Dual Transformers for Robust Face Alignment
이 논문은 스택드 밀도 U-Net과 이중 트랜스포머를 활용하여 강건한 2D 및 3D 얼굴 랜드마크 정렬을 제안하며, 계산 비용을 증가시키지 않고 특징 표현을 향상시키기 위해 스케일 집합 토폴로지와 채널 집합 블록을 도입한다. 이 방법은 최신 기술 수준의 성능을 달성하여 AFLW2000-3D에서 NME를 5.8% 감소시키고, CFP-FP에서 3D 얼굴 인식 정확도를 98.514%로 향상시켜 자세에 강인한 인식을 가능하게 한다.
Facial landmark localisation in images captured in-the-wild is an important and challenging problem. The current state-of-the-art revolves around certain kinds of Deep Convolutional Neural Networks (DCNNs) such as stacked U-Nets and Hourglass networks. In this work, we innovatively propose stacked dense U-Nets for this task. We design a novel scale aggregation network topology structure and a channel aggregation building block to improve the model's capacity without sacrificing the computational complexity and model size. With the assistance of deformable convolutions inside the stacked dense U-Nets and coherent loss for outside data transformation, our model obtains the ability to be spatially invariant to arbitrary input face images. Extensive experiments on many in-the-wild datasets, validate the robustness of the proposed method under extreme poses, exaggerated expressions and heavy occlusions. Finally, we show that accurate 3D face alignment can assist pose-invariant face recognition where we achieve a new state-of-the-art accuracy on CFP-FP.
연구 동기 및 목표
- 극도로 다양한 자세, 표정, 가림 상태가 있는 비제약적, 실외 환경에서 정확한 얼굴 랜드마크 정렬 문제를 해결한다.
- 다양한 스케일의 특징과 공간 불변성을 모델링하는 데 한계가 있는 기존의 스택드 U-Net 및 아워글래스 아키텍처의 한계를 극복한다.
- 계산 비용과 모델 크기를 유지하면서도 얼굴 랜드마크 예측 능력을 향상시킨다.
- 자세에 강인한 얼굴 인식을 지원하기 위해 강건한 3D 얼굴 정렬을 가능하게 한다. 이는 실생활 시스템에서의 핵심 응용 분야이다.
- 정확한 3D 정렬이 극한의 자세 변화 상황에서 딥 얼굴 인식 성능을 크게 향상시킨다는 것을 입증한다.
제안 방법
- 다양한 스케일 간의 특징 융합을 향상시키기 위해 집합 노드에 다운샘플링 경로를 추가함으로써 다중 스케일 표현 학습을 향상시키는 새로운 스케일 집합 토폴로지(SAT)를 제안한다.
- 채널 차원을 점진적으로 감소시켜 맥락 모델링을 향상시키고 전역 랜드마크 관계를 포착하는 데 기여하는 채널 집합 블록(CAB)을 제안한다.
- 스택드 밀도 U-Net 내부에 변형 가능 컨볼루션을 통합하여 공간적으로 적응형 특징 학습을 가능하게 하고 기하학적 변형에 대한 강인성을 향상시킨다.
- 변환된 입력에 대해 랜드마크 예측의 공간 일관성을 강제하기 위해 일관성 손실 함수를 적용하여 공간 불변성을 향상시킨다.
- 계산 효율성을 유지하기 위해 밀도 U-Net에서 한 개의 다운샘플링 계층을 제거하고 일부 컨볼루션을 딥라이즈드 분리형 컨볼루션으로 대체한다.
- 특징 맵 내의 장거리 의존성을 모델링하기 위해 이중 트랜스포머(제목에 암시되어 있음)를 활용하여 주목적 영역에 대한 주의를 향상시킨다.
실험 결과
연구 질문
- RQ1강화된 다중 스케일 특징 융합 기능을 갖춘 수정된 스택드 밀도 U-Net 아키텍처가 비제약적 얼굴 정렬에서 강인성을 향상시킬 수 있는가?
- RQ2채널 기반 특징 융합이 가림 및 표정 변화 상황에서 랜드마크 정렬 성능에 얼마나 기여하는가?
- RQ3변형 가능 컨볼루션과 일관성 손실을 통합함으로써 얼굴 랜드마크 예측의 공간 불변성은 얼마나 향상되는가?
- RQ4정확한 3D 얼굴 정렬이 자세에 강인한 얼굴 인식 성능을 크게 향상시킬 수 있는가?
- RQ5극한의 자세와 가림 상태에서 최신 기술 수준의 모델과 비교해 본다면, 제안된 방법은 얼마나 강인한가?
주요 결과
- CFP-FP 데이터셋에서 자세에 강인한 얼굴 인식에 대해 새로운 최신 기술 수준의 정확도 98.514%를 달성하여 이전의 정렬 방법들을 크게 능가한다.
- AFLW2000-3D 데이터셋에서 이전 최신 기술 수준 방법 대비 정규화 평균 오차(NME)를 5.8% 감소시켜 NME 3.07%를 달성한다.
- 정성적 결과를 통해 극한의 조건, 즉 최대 ±90°의 큰 자세 변화, 과도한 표정 변화, 심한 가림 상태에서도 뛰어난 강인성을 보여준다.
- 초기 검출기 초기화로 인해 고정밀도 범위(NME < 1.2%)에서 일시적으로 최고 성능을 낼 수는 없지만, 어려운 케이스에서는 이를 뛰어넘어 일반화 능력 향상을 보여준다.
- 3D 랜드마크 정렬을 사용할 경우 기준 방법 대비 CFP-FP에서 인증 오차를 48.24% 감소시켜 자세에 강인한 인식에서의 가치를 입증한다.
- SAT와 CAB의 조합은 계산 복잡도나 모델 크기를 증가시키지 않으면서도 모델 용량을 증가시켜 효율적인 추론을 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.