QUICK REVIEW

[논문 리뷰] Multi-modal Face Pose Estimation with Multi-task Manifold Deep Learning

Chaoqun Hong, Jun Yu|arXiv (Cornell University)|2017. 12. 18.

Face recognition and analysis참고 문헌 46인용 수 46

한 줄 요약

이 논문은 다중 모odal 얼굴 자세 추정을 위한 새로운 딥러닝 프레임워크인 다중 작업 다양체 딥 러닝($M^{2}DL$)을 제안한다. 이 프레임워크는 강화된 특징 표현을 위해 다양체 정규화 컨볼루션 레이어를 통합하고, 다중 작업 학습을 통해 다중 모달 얼굴 데이터(예: RGB 및 깊이)에서 자세 출력으로의 매핑을 공동 최적화한다. 본 방법은 DPOSE, HPID, BKHPD 벤치마크에서 최신 기술 수준(SOTA) 성능을 달성하여 복잡하고 제약이 없는 환경에서 뛰어난 정확도와 강건성을 입증한다.

ABSTRACT

Human face pose estimation aims at estimating the gazing direction or head postures with 2D images. It gives some very important information such as communicative gestures, saliency detection and so on, which attracts plenty of attention recently. However, it is challenging because of complex background, various orientations and face appearance visibility. Therefore, a descriptive representation of face images and mapping it to poses are critical. In this paper, we make use of multi-modal data and propose a novel face pose estimation method that uses a novel deep learning framework named Multi-task Manifold Deep Learning $M^2DL$. It is based on feature extraction with improved deep neural networks and multi-modal mapping relationship with multi-task learning. In the proposed deep learning based framework, Manifold Regularized Convolutional Layers (MRCL) improve traditional convolutional layers by learning the relationship among outputs of neurons. Besides, in the proposed mapping relationship learning method, different modals of face representations are naturally combined to learn the mapping function from face images to poses. In this way, the computed mapping model with multiple tasks is improved. Experimental results on three challenging benchmark datasets DPOSE, HPID and BKHPD demonstrate the outstanding performance of $M^2DL$.

연구 동기 및 목표

다양한 조명 조건, 가림, 저해상도 입력과 같은 복잡한 조건에서도 정확한 인간 얼굴 자세 추정 문제를 해결한다.
딥 네URAL 네트워크 내에서 데이터의 내재된 다양체 구조를 모델링하여 특징 표현을 향상시킨다.
다중 작업 학습을 통해 다양한 모달리티(예: RGB 이미지, 깊이 맵)를 공동으로 학습하여 자세 매핑 성능을 향상시킨다.
구조적 데이터 관계와 다중 모달 입력을 통합한 엔드 투 엔드 딥 러닝 프레임워크를 개발하여 강건한 얼굴 자세 추정을 구현한다.

제안 방법

뉴런 출력 간 기하학적 관계를 명시적으로 모델링하여 더 내재적이고 구분력 있는 특징 표현을 학습하는 다각형 정규화 컨볼루션 레이어(MRCL)를 제안한다.
각 작업이 서로 다른 모달리티(예: RGB 이미지, 깊이 맵)에 대응하는 다중 작업 학습 전략을 적용하여 다양한 시각 간 공유 및 전문화된 특징 학습을 가능하게 한다.
다중 모달 특징 추출을 위해 공통의 깊은 컨볼루션 백본을 사용하고, 자세 예측을 위한 작업별 특화된 회귀 헤드를 적용한다.
다중 모달 간 자세 파라미터의 공동 회귀를 최적화하기 위해 다중 작업 학습에서 LeastSparseTrace를 손실 함수로 사용한다.
로컬 데이터 다양체 구조를 캡처하는 그래프 라플라시안을 통합하여 컨볼루션 레이어에 다양체 정규화를 통합한다.
전체 $M^{2}DL$ 아키텍처의 엔드 투 엔드 학습을 가능하게 하여 특징 학습과 자세 회귀를 공동 최적화한다.

실험 결과

연구 질문

RQ1컨볼루션 레이어에 다양체 정규화를 적용하면 얼굴 자세 추정을 위한 특징의 내재 표현이 향상되는가?
RQ2RGB 및 깊이와 같은 다양한 모달리티 간 다중 작업 학습은 단일 모달리티 접근 방식에 비해 더 나은 일반화 및 정확도를 제공하는가?
RQ3다양체 학습을 통한 구조적 데이터 관계 통합과 다중 모달 데이터의 융합은 제약이 없는 실세계 환경에서 강건성을 향상시키는가?
RQ4다양한 벤치마크 데이터셋에서 최신 기술 수준(SOTA) 방법과 비교해 본다면, 제안된 $M^{2}DL$ 프레임워크는 정확도와 일반화 능력 측면에서 어떤가?

주요 결과

$M^{2}DL$ 프레임워크는 DPOSE, HPID, BKHPD 벤치마크 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성하여 SFS, RRF, TGP, LR와 같은 기존 방법들을 능가한다.
다양체 정규화 컨볼루션 레이어(MRCL)는 뉴런 간 숨겨진 관계를 포착하여 더 강건하고 구분력 있는 특징을 생성함으로써 특징 표현을 크게 향상시킨다.
다양한 모달리티 간 다중 작업 학습은 서로 보완되는 정보를 활용함으로써 더 나은 일반화와 향상된 자세 추정 정확도를 가능하게 한다.
저해상도 이미지, 부분적인 가림, 비면대칭 머리 자세와 같은 도전적인 상황에서도 본 방법은 뛰어난 강건성을 보여준다.
다중 작업 손실 함수로 LeastSparseTrace를 사용함으로써 여러 작업 간 자세 파라미터의 더 안정적이고 정확한 회귀가 이루어진다.
실험 결과, $M^{2}DL$는 모든 세 데이터셋에서 Salient Facial Structures(SFS), Random Regression Forests(RRF), Twin Gaussian Processes(TGP)와 같은 기준 방법들을 일관되게 능가함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.