[논문 리뷰] Deep Temporal Appearance-Geometry Network for Facial Expression Recognition
이 논문은 영상 시퀀스에서 시간적 외형 특징과 얼굴 랜드마크 궤적에서 기하학적 특징을 별도의 CNN 및 DNN 브랜치를 사용해 공동으로 학습하는 딥 타임리얼 어피어런스-지오메트리 네트워크(DTAGN)를 제안한다. 이러한 상호보완적인 표현을 융합함으로써, 모델은 CK+ 및 Oulu-CASIA 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하며, 인식 정확도가 향상되고 핵심 얼굴 운동점이 자동으로 탐지된다.
Temporal information can provide useful features for recognizing facial expressions. However, to manually design useful features requires a lot of effort. In this paper, to reduce this effort, a deep learning technique which is regarded as a tool to automatically extract useful features from raw data, is adopted. Our deep network is based on two different models. The first deep network extracts temporal geometry features from temporal facial landmark points, while the other deep network extracts temporal appearance features from image sequences . These two models are combined in order to boost the performance of the facial expression recognition. Through several experiments, we showed that the two models cooperate with each other. As a result, we achieved superior performance to other state-of-the-art methods in CK+ and Oulu-CASIA databases. Furthermore, one of the main contributions of this paper is that our deep network catches the facial action points automatically.
연구 동기 및 목표
- 얼굴 표정 인식을 위한 시간적 특징를 수작업으로 설계하는 데서 비롯하는 노동 집약성과 종종 모호한 문제를 해결하기 위해.
- 작은 규모의 얼굴 표정 데이터베이스(예: CK+, Oulu-CASIA, MMI)에서 과적합을 완화하기 위해 경량이면서 상호보완적인 딥 네트워크를 사용하기 위해.
- 수작업 특징 없이 원시 데이터에서 분류 가능한 얼굴 운동점과 시간적 운동 패턴을 자동으로 학습하기 위해.
- 통합 프레임워크 내에서 외형 기반 및 기하학 기반 딥 표현을 융합하여 인식 정확도를 향상시키기 위해.
제안 방법
- 이 방법은 이중 브랜치 딥 네트워크를 사용한다: 하나의 브랜치는 3D CNN(DTAN)를 통해 영상 시퀀스를 처리하여 시공간적 외형 특징을 추출한다.
- 두 번째 브랜치는 얼굴 랜드마크 점의 시간적 궤적을 처리하기 위해 딥 네트워크(DTGN)를 사용하여 기하학적 운동 패턴을 추출한다.
- 두 네트워크는 각각 영상 시퀀스와 랜드마크 데이터에서 독립적으로 훈련되며, 출력은 가중치 합산을 통해 융합된다.
- 아키텍처는 ReLU 활성화 함수, 드롭아웃을 통한 정규화를 사용하며, 입력 전처리로 국소 대trast 정규화와 눈좌표 정규화를 적용한다.
- 모델은 확률적 경사 하강법을 사용해 엔드 투 엔드로 훈련되며, 융합 가중치 α와 같은 하이퍼파rameter는 수동으로 튜닝된다.
- 전처리는 공개된 도구를 사용해 얼굴 랜드마크 검출 및 얼굴 정규화를 수행하여 재현 가능성을 확보한다.
실험 결과
연구 질문
- RQ1딥 러닝 모델이 원시 영상 시퀀스와 얼굴 랜드마크 데이터에서 의미 있는 시간적 외형 특징과 기하학적 특징을 자동으로 추출할 수 있는가?
- RQ2외형 기반 및 기하학 기반 딥 네트워크는 인식 성능 향상에 어떻게 상호보완적인가?
- RQ3수작업 특징 설계 없이 모델이 핵심 얼굴 운동점을 얼마나 잘 탐지하고 학습할 수 있는가?
- RQ4외형과 기하 표현의 융합은 단일 모odal 또는 수작업 특징 방법에 비해 우수한 성능을 내는가?
주요 결과
- 제안된 DTAGN 모델은 CK+ 데이터셋에서 가장 높은 인식 정확도를 달성하여, 다른 모든 최신 기술 수준의 방법들을 능가했다.
- Oulu-CASIA 데이터셋에서는 82.5%의 정확도를 기록하여 다양한 조건을 가진 데이터셋 간의 강력한 일반화 능력을 보였다.
- MMI에서의 혼동 행렬 분석 결과, 공포 감정이 가장 잘못 분류된 감정이었으며, 57.14%의 공포 샘플이 놀람으로 잘못 예측되었다.
- 실패 분석 결과, 공포 표정은 놀람이나 슬픔과 시각적으로 유사한 경향이 있어, 더 다양한 훈련 데이터가 필요함을 시사했다.
- DTAN 및 DTGN 브랜치는 상호보완적이었다: DTAN은 프레임 간 차이를 잘 포착했고, DTGN은 자동으로 주목할 만한 얼굴 운동점을 학습했다.
- 30명의 주제로 이루어진 작은 훈련 세트에도 불구하고, MMI 데이터셋에서 전체적으로 두 번째로 높은 정확도를 달성하여 도메인 이동에 대한 강건성을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.