Skip to main content
QUICK REVIEW

[논문 리뷰] A Deep Learning Perspective on the Origin of Facial Expressions

Ran Breuer, Ron Kimmel|arXiv (Cornell University)|2017. 05. 04.
Face recognition and analysis참고 문헌 48인용 수 95
한 줄 요약

이 논문은 시각화를 통한 CNN 기반 얼굴 표정 인식(FER)을 사용하여 학습된 특징을 Ekman의 FACS와 연결하고, 데이터셋/작업 간 전이 가능성을 보여주며 LSTM을 이용한 미세표정 탐지에서 최첨단 성과를 달성합니다.

ABSTRACT

Facial expressions play a significant role in human communication and behavior. Psychologists have long studied the relationship between facial expressions and emotions. Paul Ekman et al., devised the Facial Action Coding System (FACS) to taxonomize human facial expressions and model their behavior. The ability to recognize facial expressions automatically, enables novel applications in fields like human-computer interaction, social gaming, and psychological research. There has been a tremendously active research in this field, with several recent papers utilizing convolutional neural networks (CNN) for feature extraction and inference. In this paper, we employ CNN understanding methods to study the relation between the features these computational networks are using, the FACS and Action Units (AU). We verify our findings on the Extended Cohn-Kanade (CK+), NovaEmotions and FER2013 datasets. We apply these models to various tasks and tests using transfer learning, including cross-dataset validation and cross-task performance. Finally, we exploit the nature of the FER based CNN models for the detection of micro-expressions and achieve state-of-the-art accuracy using a simple long-short-term-memory (LSTM) recurrent neural network (RNN).

연구 동기 및 목표

  • 자동 얼굴 표정 인식과 Ekman의 FACS(AU 프레임워크)와의 관계를 탐구합니다.
  • CNN이 FER을 위해 학습하는 것이 무엇이며 이 특징들이 AU와 어떻게 관련되는지 조사합니다.
  • CNN 유래 특징의 데이터셋 및 작업 간 일반화를 전이 학습을 통해 보여줍니다.
  • FER에서 파생된 특징을 미세표정 탐지에 적용하고 성능을 평가합니다.

제안 방법

  • 5x5 필터의 3개의 컨볼루션 블록(3 conv blocks)으로 구성된 고전적인 3-block CNN을 구현하고, 각 블록 뒤에 ReLU, 2x2 풀링, 64/128/256 맵을 사용하며, 뒤이어 512-뉴런 완전 연결 계층과 출력 계층(감정 8 클래스)을 둡니다.
  • 드롭아웃(마지막 컨브 뒤 0.25, FC층 간 0.5)을 적용하고 ADAM(r=1e-3, 감쇠=1e-5)으로 학습합니다.
  • 일반화 개선을 위해 데이터 증강(뒤집기, 아핀 변환)을 사용합니다.
  • 활성화를 얼굴 영역 및 Ekman의 AU와 연관시키려 역합성(deconvolution) 및 가이드 역전파를 사용하여 학습된 필터를 시각화합니다.
  • 전이 학습을 통한 데이터셋 간 및 작업 간 일반화 평가(컨볼루션 층 고정, 출력 재학습).
  • CK+, NovaEmotions, FER2013에서 평가하고 이전 FER 방법과 비교하여 정확도가 더 높음을 보입니다.

실험 결과

연구 질문

  • RQ1감정 인식을 위해 학습된 CNN이 Ekman의 Action Units에 대응하는 필터를 개발하는가?
  • RQ2하나의 FER 데이터셋에서 학습된 CNN 특징이 다른 데이터셋 및 관련 작업(AU 탐지, 감정 분류)으로 일반화될 수 있는가?
  • RQ3FER 기반 CNN 특징이 시계열 모델(LSTM)과 결합될 때 미세표정 탐지 성능을 향상시킬 수 있는가?
  • RQ4CNN 특징으로부터 얻을 수 있는 AU 수준의 해석 가능성과 희소성 수준은 어느 정도인가?

주요 결과

  • CNN 시각화는 AU4, AU5, AU9, AU10, AU12, AU25 등 Ekman AU와 상관된 필터를 드러낸다.
  • CK+에서 감정 분류 정확도는 98.62% ± 0.11%로, 여러 선행 방법보다 우수하다.
  • FER2013에서 모델은 72.1% 정확도(강력한 기준선과 비슷), 그리고 교차 데이터세트 테스트는 감정 탐지 성능의 상당한 전이 가능성을 보여준다(CK+에서 FER2013로: 69.3%; FER2013에서 CK+: 92.0%).
  • AU 탐지는 스파스 CNN 특징을 통해 이진 AU 존재에서 97.54% 정확도와 강도 예측에서 MSE 0.2045로 96.1%를 달성한다.
  • CASME II에서 CNN+LSTM으로 미세표정 탐지는 59.47% 정확도이며 LBP-TOP 베이스라인을 능가한다.
  • 교차 작업 전이는 CNN이 학습한 FACS 유사 특징이 FER 관련 작업 및 데이터셋 전반에 잘 일반화됨을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.