Skip to main content
QUICK REVIEW

[논문 리뷰] Frame-level Prediction of Facial Expressions, Valence, Arousal and Action Units for Mobile Devices

Andrey V. Savchenko|arXiv (Cornell University)|2022. 03. 25.
Emotion and Mood Recognition인용 수 23
한 줄 요약

AffectNet에서 사전 학습된 EfficientNet으로 경량 프레임 수준 얼굴 표정 분석 모델을 제안하여 표정, 가치-각성(valence/arousal), 및 액션 유닛(AU)을 예측하고, 온디바이스 모바일 처리에 적합하며 ABAW3 도전 과제 전반에서 Aff-Wild2에서 경쟁력 있는 결과를 보임.

ABSTRACT

In this paper, we consider the problem of real-time video-based facial emotion analytics, namely, facial expression recognition, prediction of valence and arousal and detection of action unit points. We propose the novel frame-level emotion recognition algorithm by extracting facial features with the single EfficientNet model pre-trained on AffectNet. As a result, our approach may be implemented even for video analytics on mobile devices. Experimental results for the large scale Aff-Wild2 database from the third Affective Behavior Analysis in-the-wild (ABAW) Competition demonstrate that our simple model is significantly better when compared to the VggFace baseline. In particular, our method is characterized by 0.15-0.2 higher performance measures for validation sets in uni-task Expression Classification, Valence-Arousal Estimation and Expression Classification. Due to simplicity, our approach may be considered as a new baseline for all four sub-challenges.

연구 동기 및 목표

  • 모바일 및 임베디드 시스템을 위한 실시간, 온-디바이스 얼굴 감정 분석의 동기를 마련합니다.
  • 앙상블 없이 다중 정서 태스크를 수행할 수 있는 단일 경량 CNN 기반 파이프라인을 개발합니다.
  • 사전 학습된 얼굴 표현을 활용하여 데이터셋 간 일반화를 높이고 계산 부담을 줄입니다.
  • EfficientNet 특징 위에 단순한 MLP 기반 헤드가 uni-task 및 multi-task 성능을 모두 강하게 달성할 수 있음을 보여줍니다.

제안 방법

  • 대량의 얼굴 인식 데이터(VGGFace2)에서 경량 CNN을 사전 학습하여 일반적인 얼굴 특징을 학습합니다.
  • AffectNet에서 여덟 가지 기본 표현으로 CNN을 미세 조정하여 감정 특성 추출기를 형성합니다.
  • 세부 영상 프레임마다 미세 조정된 네트워크에서 프레임 수준 임베딩 및 표현 점수를 추출합니다.
  • 임베딩 및/또는 점수를 특징으로 사용하여 각 태스크별로 얕은 MLP 기반 분류기/회귀기를 학습합니다.
  • 안정성을 향상시키기 위해 슬라이딩 윈도우를 통한 평균 또는 중앙값 필터로 프레임 스무딩을 선택적으로 적용합니다.

실험 결과

연구 질문

  • RQ1EfficientNet 기반의 단일 경량 모델이 프레임별 온디바이스 설정에서 FER, AU, Valence-Arousal의 네 가지 ABAW3 하위 챌린지를 효과적으로 모두 수행할 수 있는가?
  • RQ2임베딩이 감정 점수보다 특징으로서 우수한가, 그리고 두 가지를 연결(concatenation)하는 것이 다중 작업 성능에 이로운가?
  • RQ3각 태스크에 대한 프레임 수준 예측의 스무딩 영향은 얼마나 큰가?
  • RQ4감정 예측의 다중 작업 학습에서 간단한 MLP 헤드가 더 복잡한 다중 작업 네트워크에 비해 어떤 성능 차이를 보이는가?

주요 결과

  • 단순한 MLP 헤드를 가진 단일 EfficientNet 기반 특징 추출기는 ABAW3 태스크에서 VGGFace 기반 기준선보다 prowess를 낼 수 있다.
  • 임베딩은 일반적으로 표현/ AU 예측에서 감정 점수보다 우수한 경향이 있으며, 임베딩과 점수의 연결(concatenation)은 강한 성능을 제공한다.
  • 더 큰 창(window)으로 프레임 수준 스무딩(k=15 등)을 적용하면 valence/arousal 및 AU 지표에서 뚜렷한 개선이 나타난다.
  • 제안된 방법은 여러 지표에서 평균 개선을 보이며 표현, AU, VA 태스크에서 기준선 대비 경쟁력 있는 결과를 달성했다.
  • 다중 작업 학습에서 EfficientNet-B0과 간단한 로지스틱 회귀 헤드가 검증/테스트 지표에서 전반적으로 최상의 성능을 보였고, 도전 과제 엔트리들 중에서도 상위권에 랭크되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.