QUICK REVIEW

[논문 리뷰] Do Deep Neural Networks Learn Facial Action Units When Doing Expression Recognition?

Pooya Khorrami, Tom Le Paine|arXiv (Cornell University)|2015. 10. 10.

Emotion and Mood Recognition참고 문헌 1인용 수 30

한 줄 요약

이 논문은 얼굴 표정 인식을 위해 훈련된 딥 컨volution 신경망(DCNN)이 명시적 AU 감독 없이도 암묵적으로 얼굴 운동 단위(Facial Action Units, FAUs)를 탐지하는 법을 학습한다는 것을 보여준다. 특성 맵을 시각화하고 필터 활성화를 실제 FAU 레이블과 상관시키면서, 특정 신경망이 AU 특화된 얼굴 영역에 반응함을 입증하여, DCNN가 생물학적으로 타당한 얼굴 운동 단위를 학습한다는 것을 확인한다. 이 모델은 CK+ 및 TFD 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Despite being the appearance-based classifier of choice in recent years, relatively few works have examined how much convolutional neural networks (CNNs) can improve performance on accepted expression recognition benchmarks and, more importantly, examine what it is they actually learn. In this work, not only do we show that CNNs can achieve strong performance, but we also introduce an approach to decipher which portions of the face influence the CNN's predictions. First, we train a zero-bias CNN on facial expression data and achieve, to our knowledge, state-of-the-art performance on two expression recognition benchmarks: the extended Cohn-Kanade (CK+) dataset and the Toronto Face Dataset (TFD). We then qualitatively analyze the network by visualizing the spatial patterns that maximally excite different neurons in the convolutional layers and show how they resemble Facial Action Units (FAUs). Finally, we use the FAU labels provided in the CK+ dataset to verify that the FAUs observed in our filter visualizations indeed align with the subject's facial movements.

연구 동기 및 목표

표현 인식을 위해 훈련된 딥 CNN이 단순한 외관을 초월해 의미 있는 얼굴 특징을 학습하는지 조사하기.
CNN의 필터가 에크먼의 FACS에서 정의한 생물학적으로 관련성이 있는 얼굴 운동 단위(Facial Action Units, FAUs)에 대응하는지 확인하기.
CNN이 CK+ 및 TFD와 같은 기존의 표현 인식 벤치마크에서 최신 기술 수준의 성능을 달성할 수 있는지 평가하기.
실제 주제의 얼굴 운동을 기반으로 한 실제 FAU 애너테이션을 사용해 필터 활성화가 실제로 일치하는지 검증하기.

제안 방법

3개의 컨볼루션 레이어(64, 128, 256 필터), ReLU 활성화 함수, 최대/쿼드 풀링을 사용한 제로-바이어스 CNN을 훈련하여 특징 추출을 수행했다.
3번째 컨볼루션 레이어의 개별 필터를 최대한 자극하는 공간 패턴을 시각화하기 위해 탈컨volution 네트워크를 사용했다.
각 FAU가 존재하거나 존재하지 않을 때의 활성화 분포를 비교하기 위해 KL 발산을 적용하여, 각 필터에 가장 영향을 주는 AU를 특정했다.
CK+ 데이터셋의 FAU 레이블과 필터 시각화를 상관시켜, 학습된 특징과 실제 얼굴 운동 간의 일치성을 검증했다.
확장된 Cohn-Kanade(CK+) 및 토리onto Face Dataset(TFD) 벤치마크에서 모델 성능을 평가했다.

실험 결과

연구 질문

RQ1표현 인식을 위해 훈련된 딥 CNN이 명시적 AU 감독 없이도 얼굴 운동 단위(Facial Action Units, FAUs)를 탐지하는 법을 암묵적으로 학습하는가?
RQ2CNN에서 가장 분류 능력이 뛰어난 필터들이 어떤 얼굴 영역에 반응하며, 이들이 알려진 FAUs와 일치하는가?
RQ3CNN 필터가 학습한 공간 패턴은 CK+ 데이터셋에 레이블링된 실제 주제의 얼굴 운동과 의미 있게 연결될 수 있는가?
RQ4제로-바이어스 CNN 아키텍처가 표준 표현 인식 벤치마크에서 최신 기술 수준의 성능을 달성하는가?

주요 결과

CNN 필터에 시각화된 공간 패턴은 AU 12(Lip Corner Puller) 및 AU 25/27(Lips Part, Mouth Stretch)와 같이 알려진 얼굴 운동 단위(Facial Action Units, FAUs)와 강하게 유사하다.
대부분의 필터에 대해 활성화 분포에서 KL 발산이 가장 높은 FAU가 필터의 수용 영역과 일치하는 얼굴 영역을 나타내어, 기능적 일치를 확인했다.
필터 2, 6, 9는 AU 12에 강한 민감도를 보였으며, 이는 미소와 입꼬리 올리기 탐지 기능과 일치한다.
필터 8는 AU 25와 AU 27에 강하게 반응하여 놀란 얼굴의 'O' 자형 입 모양을 반영하여, 시각적 및 활성화 기반 일관성을 확인했다.
제안된 제로-바이어스 CNN은 확장된 Cohn-Kanade(CK+) 및 토리onto Face Dataset(TFD) 벤치마크에서 최신 기술 수준의 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.