QUICK REVIEW

[논문 리뷰] Frame-level Prediction of Facial Expressions, Valence, Arousal and Action Units for Mobile Devices

Andrey V. Savchenko|arXiv (Cornell University)|2022. 03. 25.

Emotion and Mood Recognition인용 수 23

한 줄 요약

AffectNet에서 사전 학습된 EfficientNet으로 경량 프레임 수준 얼굴 표정 분석 모델을 제안하여 표정, 가치-각성(valence/arousal), 및 액션 유닛(AU)을 예측하고, 온디바이스 모바일 처리에 적합하며 ABAW3 도전 과제 전반에서 Aff-Wild2에서 경쟁력 있는 결과를 보임.

ABSTRACT

In this paper, we consider the problem of real-time video-based facial emotion analytics, namely, facial expression recognition, prediction of valence and arousal and detection of action unit points. We propose the novel frame-level emotion recognition algorithm by extracting facial features with the single EfficientNet model pre-trained on AffectNet. As a result, our approach may be implemented even for video analytics on mobile devices. Experimental results for the large scale Aff-Wild2 database from the third Affective Behavior Analysis in-the-wild (ABAW) Competition demonstrate that our simple model is significantly better when compared to the VggFace baseline. In particular, our method is characterized by 0.15-0.2 higher performance measures for validation sets in uni-task Expression Classification, Valence-Arousal Estimation and Expression Classification. Due to simplicity, our approach may be considered as a new baseline for all four sub-challenges.

연구 동기 및 목표

모바일 및 임베디드 시스템을 위한 실시간, 온-디바이스 얼굴 감정 분석의 동기를 마련합니다.
앙상블 없이 다중 정서 태스크를 수행할 수 있는 단일 경량 CNN 기반 파이프라인을 개발합니다.
사전 학습된 얼굴 표현을 활용하여 데이터셋 간 일반화를 높이고 계산 부담을 줄입니다.
EfficientNet 특징 위에 단순한 MLP 기반 헤드가 uni-task 및 multi-task 성능을 모두 강하게 달성할 수 있음을 보여줍니다.

제안 방법

대량의 얼굴 인식 데이터(VGGFace2)에서 경량 CNN을 사전 학습하여 일반적인 얼굴 특징을 학습합니다.
AffectNet에서 여덟 가지 기본 표현으로 CNN을 미세 조정하여 감정 특성 추출기를 형성합니다.
세부 영상 프레임마다 미세 조정된 네트워크에서 프레임 수준 임베딩 및 표현 점수를 추출합니다.
임베딩 및/또는 점수를 특징으로 사용하여 각 태스크별로 얕은 MLP 기반 분류기/회귀기를 학습합니다.
안정성을 향상시키기 위해 슬라이딩 윈도우를 통한 평균 또는 중앙값 필터로 프레임 스무딩을 선택적으로 적용합니다.

실험 결과

연구 질문

RQ1EfficientNet 기반의 단일 경량 모델이 프레임별 온디바이스 설정에서 FER, AU, Valence-Arousal의 네 가지 ABAW3 하위 챌린지를 효과적으로 모두 수행할 수 있는가?
RQ2임베딩이 감정 점수보다 특징으로서 우수한가, 그리고 두 가지를 연결(concatenation)하는 것이 다중 작업 성능에 이로운가?
RQ3각 태스크에 대한 프레임 수준 예측의 스무딩 영향은 얼마나 큰가?
RQ4감정 예측의 다중 작업 학습에서 간단한 MLP 헤드가 더 복잡한 다중 작업 네트워크에 비해 어떤 성능 차이를 보이는가?

주요 결과

단순한 MLP 헤드를 가진 단일 EfficientNet 기반 특징 추출기는 ABAW3 태스크에서 VGGFace 기반 기준선보다 prowess를 낼 수 있다.
임베딩은 일반적으로 표현/ AU 예측에서 감정 점수보다 우수한 경향이 있으며, 임베딩과 점수의 연결(concatenation)은 강한 성능을 제공한다.
더 큰 창(window)으로 프레임 수준 스무딩(k=15 등)을 적용하면 valence/arousal 및 AU 지표에서 뚜렷한 개선이 나타난다.
제안된 방법은 여러 지표에서 평균 개선을 보이며 표현, AU, VA 태스크에서 기준선 대비 경쟁력 있는 결과를 달성했다.
다중 작업 학습에서 EfficientNet-B0과 간단한 로지스틱 회귀 헤드가 검증/테스트 지표에서 전반적으로 최상의 성능을 보였고, 도전 과제 엔트리들 중에서도 상위권에 랭크되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.