Skip to main content
QUICK REVIEW

[논문 리뷰] Affect Analysis in-the-wild: Valence-Arousal, Expressions, Action Units and a Unified Framework

Dimitrios Kollias, Stefanos Zafeiriou|arXiv (Cornell University)|2021. 03. 29.
Color perception and design참고 문헌 8인용 수 97
한 줄 요약

논문은 AffWildNet과 자연스러운(in-the-wild) 감정 분석을 위한 통합 다중 작업 프레임워크를 제시합니다. 이는 Aff-Wild 및 Aff-Wild2 데이터베이스를 활용해 가치/각성(valence/arousal), 표정, 액션 유닛(AU)을 다루며, 광범위한 다중 작업 및 다구성 아키텍처와 벤치마크 결과를 다룹니다.

ABSTRACT

Affect recognition based on subjects' facial expressions has been a topic of major research in the attempt to generate machines that can understand the way subjects feel, act and react. In the past, due to the unavailability of large amounts of data captured in real-life situations, research has mainly focused on controlled environments. However, recently, social media and platforms have been widely used. Moreover, deep learning has emerged as a means to solve visual analysis and recognition problems. This paper exploits these advances and presents significant contributions for affect analysis and recognition in-the-wild. Affect analysis and recognition can be seen as a dual knowledge generation problem, involving: i) creation of new, large and rich in-the-wild databases and ii) design and training of novel deep neural architectures that are able to analyse affect over these databases and to successfully generalise their performance on other datasets. The paper focuses on large in-the-wild databases, i.e., Aff-Wild and Aff-Wild2 and presents the design of two classes of deep neural networks trained with these databases. The first class refers to uni-task affect recognition, focusing on prediction of the valence and arousal dimensional variables. The second class refers to estimation of all main behavior tasks, i.e. valence-arousal prediction; categorical emotion classification in seven basic facial expressions; facial Action Unit detection. A novel multi-task and holistic framework is presented which is able to jointly learn and effectively generalize and perform affect recognition over all existing in-the-wild databases. Large experimental studies illustrate the achieved performance improvement over the existing state-of-the-art in affect recognition.

연구 동기 및 목표

  • 대규모 자연스러운(real-world) 데이터세트를 사용하여 강건한 감정 인식을 촉진한다.
  • 차원적(valence/arousal), 범주형 표현 및 액션 유닛 기반 표현을 공동으로 모델링할 수 있는 딥 러닝 아키텍처를 개발한다.
  • Aff-Wild, Aff-Wild2와 같은 대규모 자연스러운 데이터베이스를 만들고 활용하여 감정 인식 시스템을 학습하고 일반화한다.

제안 방법

  • CNN 특징을 시간 모델(RNN/GRU)과 융합하는 단일 작업(차원적) 및 다중 작업 holistic 아키텍처를 제안한다.
  • AffWildNet을 Aff-Wild에서 학습한 valence/arousal 추정을 위한 CCC 기반 손실(L_total = 1 - 0.5*(rho_a + rho_v))을 사용하는 CNN-RNN 엔드투엔드 네트워크로 제시한다.
  • 저-중-고 수준의 CNN 특징을 각각 별도 RNN으로 활용하고 이를 융합하는 다구성 CNN+다-RNN 설계(CNN-3RNN 및 CNN-1RNN)를 통해 차원적 감정 추정을 향상시킨다.
  • CNN 특징과 함께 68개의 얼굴 랜드마크를 연결(concatenate)하여 시간적 모델링을 개선한다.
  • 모델 수준 및 결정 수준의 융합을 탐색하여 valence/arousal 예측 성능을 높이고, 포스트 프로세싱(중간 필터링, 스무딩)을 수행한다.
  • Aff-Wild2에서의 사전 학습 및 OMG-Emotion 데이터셋 특성에 맞춘 발화 단위 주석에 대한 적응.

실험 결과

연구 질문

  • RQ1큰 규모의 자연스러운 얼굴 감정 데이터셋(Aff-Wild, Aff-Wild2)을 어떻게 활용하여 valence-arousal 추정, 표현, AU 탐지를 향상시킬 수 있는가?
  • RQ2차원적, 범주형, AU 기반 표현을 함께 학습하는 통합 다중 작업 프레임워크가 자연스러운 환경에서 단일 작업 모델보다 성능이 우수한가?
  • RQ3다층 CNN 특징과 랜드마크를 융합하고 각기 다른 RNN으로 처리하는 다구성 CNN+RNN 아키텍처가 시간적 감정 추정에 우수한가?
  • RQ4모델 수준 융합 대 결정 수준 융합이 자연스러운 환경에서 valence/arousal 예측 정확도에 미치는 영향은 무엇인가?
  • RQ5Aff-Wild2에서 사전 학습한 모델이 다른 감정 데이터셋(예: OMG-Emotion) 및 작업으로 얼마나 잘 일반화되는가?

주요 결과

모델Valence CCCArousal CCCMean CCCValence MSEArousal MSEMean MSE
FATAUVA-Net0.400.280.340.120.100.11
VGG-160.400.300.350.130.110.12
ResNet-500.430.300.370.110.110.11
VGG-FACE0.510.330.420.100.080.09
VGG-FACE-LSTM0.520.380.450.100.090.10
AffWildNet0.570.430.500.080.060.07
  • AffWildNet은 평가된 아키텍처 중 valence/arousal에서 최첨단 CCC 점수를 달성합니다(FAffinityNet은 FATAUVA-Net 및 기타 베이스라인을 능가합니다).
  • 다층 CNN 특징을 별도 RNN으로 처리하는 다구성 CNN+RNN 아키텍처(CNN-3RNN, CNN-1RNN)는 단일 RNN 방식보다 차원적 감정 추정에서 성능을 향상시킵니다.
  • RNN 기반 융합 모듈을 사용하는 모델 수준 융합이 결정 수준 융합 또는 FC 기반 융합보다 valence/arousal 성능이 더 좋습니다.
  • Aff-Wild2에서의 사전 학습과 다구성 네트워크의 엔드투엔드 학습은 자연스러운 데이터셋에서 성능을 크게 향상시키고 관련 작업(OMG-Emotion)으로의 전이도 잘됩니다.
  • Aff-Wild2는 558개의 비디오와 458명의 피험자에 걸쳐 valence/arousal, AUs, 기본 표현에 대한 포괄적 주석을 제공하여 자연스러운 학습을 견고하게 만듭니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.