QUICK REVIEW

[논문 리뷰] EmotiEffNet Facial Features in Uni-task Emotion Recognition in Video at ABAW-5 competition

Andrey V. Savchenko|arXiv (Cornell University)|2023. 03. 16.

Emotion and Mood Recognition인용 수 15

한 줄 요약

이 논문은 EmotiEffNet 임베딩을 사용한 비디오 감정 인식 파이프라인을 제시하고, MLP/LightAutoML 분류기와 시간적 평활화를 통해 ABAW-5에서 Aff-Wild2의 VA, FER, AU 메트릭을 향상시켰다.

ABSTRACT

In this article, the results of our team for the fifth Affective Behavior Analysis in-the-wild (ABAW) competition are presented. The usage of the pre-trained convolutional networks from the EmotiEffNet family for frame-level feature extraction is studied. In particular, we propose an ensemble of a multi-layered perceptron and the LightAutoML-based classifier. The post-processing by smoothing the results for sequential frames is implemented. Experimental results for the large-scale Aff-Wild2 database demonstrate that our model achieves a much greater macro-averaged F1-score for facial expression recognition and action unit detection and concordance correlation coefficients for valence/arousal estimation when compared to baseline.

연구 동기 및 목표

VA, FER, AU 작업에 대해 ABAW-5 제약 하에서 야생 환경에서의 프레임 단위 감정 예측을 개선하도록 동기를 부여한다.
AffectNet에서 사전 학습된 EmotiEffNet 얼굴 임베딩을 활용하여 Aff-Wild2 특유의 편향으로부터 독립적인 프레임 수준 표현을 생성한다.
MLP 및 LightAutoML 앙상블 같은 간단하지만 효과적인 분류기를 시간적 평활화와 함께 하류 작업에 대해 평가한다.
베이스라인 CNN 및 이전의 EfficientNet 기반 접근법과 비교하여 이득을 정량화한다.
재현 가능한 워크플로우를 제공하고 음성 통합 및 순차 추론과 같은 향후 가능성 있는 개선점을 논의한다.

제안 방법

FER 및 VA 작업에 대해 미세 조정된 사전 학습 EmotiEffNet 모델(EmotiEffNet-B0 또는 MT-EmotiEffNet-B0)로 각 프레임의 임베딩 x(t)과 로지츠 l(t)을 추출한다.
로지츠 l(t), 밸런스 V(t), 그리고 각성 A(t)을 입력으로 결합하여 분류기(MLP 및 LightAutoML)가 VA, FER 클래스 또는 AU 레이블을 예측하도록 한다.
VA의 경우, 활성화 함수로 tanh를 사용하여 발란스와 각성에 대한 Concordance Correlation Coefficient를 최대화하기 위해 히든 레이어가 없는 MLP를 학습시킨다.
FER 및 AU의 경우 하나의 은닉층을 가진 MLP를 학습시키고, FER은 softmax를, AU 탐지는 임계값과 함께 sigmoid를 사용한다.
선택적으로 ABAW-5 데이터에서 EmotiEffNet를 미세조정하고 커널 크기 k의 상자(box) 또는 중앙값 필터를 통해 프레임 단위 평활화를 적용하여 안정성을 향상시킨다.
성능 향상을 위해 블렌딩/앙상블(LightAutoML, MLP, 미세조정된 모델) 및 사전 학습된 VA-전용 또는 사전 학습된 로지츠 프리셋을 실험한다.
평활화 커널 크기 k는 핵심 하이퍼파라미터이다; 더 큰 k(예: VA/AR의 경우 25–50)가 종종 CCC를 더 좋게 만들고, 더 작은 k는 AU 탐지에 더 좋다(3–5).
재현 가능한 워크플로우와 재현을 위한 공개 학습 코드(GitHub)를 제공한다.

실험 결과

연구 질문

RQ1기준선과 비교했을 때 EmotiEffNet 기반 얼굴 특징이 ABAW-5에서 Aff-Wild2의 프레임 단위 VA, FER 및 AU 성능을 향상시기는가?
RQ2분류기 선택(MLP 대 LightAutoML)과 특징 입력(임베딩 대 로지츠)이 하류 작업 성능에 미치는 영향은 무엇인가?
RQ3시간적 평활화가 VA, FER, AU 작업에서 예측의 안정성과 정확도에 어떤 영향을 미치는가?
RQ4ABAW-5 데이터에서 EmotiEffNet를 미세조정하는 것이 얼려진(pretrained) 임베딩을 사용하는 것보다 측정 가능한 이점을 제공하는가?
RQ5단일 작업 ABAW-5 도전에 대해 여러 분류기와 입력 표현을 블렌딩하는 이점은 무엇인가?

주요 결과

EmotiEffNet 임베딩과 MLP/LightAutoML 앙상블을 포함한 파이프라인은 베이스라인 ResNet-50 및 이전 EfficientNet 사용에 비해 VA CCC 점수를 크게 향상시킨다.
FER 매크로 F1-스코어와 정확도는 평활화 및 앙상블 전략으로 현저히 향상되며 VGGFACE 베이스라인 대비 상당한 이득을 달성한다.
AU 탐지는 MLP 기반 접근과 평활화로 매크로 F1-스코어가 향상되어 여러 베이스라인보다 앞서고 시간적 블렌딩의 이점을 시사한다.
최고의 VA 결과는 CCC_V 및 CCC_A의 개선을 기준선 및 이전 EmotiEffNet 구성 대비 상당한 여지로 달성했으며, 25–50 범위의 평활화 커널 크기가 강한 CCC 이득을 제공한다.
AU 결과는 프레임 변화가 빠르기 때문에 작은 평활화(k 약 3–5)가 바람직하고, 앙상블/임계값 최적화가 F1 점수를 추가로 높인다.
작업 전반에 걸쳐 제안된 EmotiEffNet 기반 워크플로우는 검증 데이터에서 공식 베이스라인 및 이전의 EfficientNet 적용 사례를 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.