QUICK REVIEW

[논문 리뷰] Facial Affective Behavior Analysis Method for 5th ABAW Competition

Shangfei Wang, Yanan Chang|arXiv (Cornell University)|2023. 03. 16.

Emotion and Mood Recognition인용 수 8

한 줄 요약

요약: 논문은 Aff-Wild2에서 제5회 ABAW 대회를 위한 세 가지 작업 특화 모델을 구축한다: fused backbones를 사용한 VA 추정, 앙상블 Sub- 및 Meta- Classifier로 표현 분류, CNN/Transformer와 시간 처리 및 focal loss를 결합한 AU 인식.

ABSTRACT

Facial affective behavior analysis is important for human-computer interaction. 5th ABAW competition includes three challenges from Aff-Wild2 database. Three common facial affective analysis tasks are involved, i.e. valence-arousal estimation, expression classification, action unit recognition. For the three challenges, we construct three different models to solve the corresponding problems to improve the results, such as data unbalance and data noise. For the experiments of three challenges, we train the models on the provided training data and validate the models on the validation data.

연구 동기 및 목표

현실 세계에서의 인간-컴퓨터 상호작용을 위한 얼굴 정서적 행동의 자동 분석을 촉진한다.
세 가지 ABAW 과제(valence-arousal 추정, 표현 분류, 행동 단위 인식)에 대응한다.
Aff-Wild2의 데이터 불균형과 노이즈를 처리하기 위한 작업 특화 모델을 개발한다.
제공된 학습/검증 세트에서 모델을 평가하고 베이스라인 대비 성능 향상을 보고한다.

제안 방법

VA 추정을 위해 ResNet50, RegNet, EfficientNet 백본의 특징을 융합하고; 긍정/부정( polarity) 분류기를 valence/arousal 분류기 앞에 두며; valence 특징을 arousal 분류기에 입력하고; 레이블을 이산화한 교차 엔트로피로 학습하고 회귀에는 CCC 손실을 사용한다.
표현 분류를 위해 증강 데이터를 사용한 다수의 Sub-클래시파이어를 학습하는 배깅 앙상블을 적용하고; 메타-클래퍼가 미리 정의된 규칙과 임계값으로 최종 보팅을 수행한다; L_C = L_CE + lambda * L_Dice를 사용하고 focal 데이터 증강 전략을 적용하며; 클래스 7에 대한 데이터 삭제/처리도 수행한다.
AU 인식은 얼굴 크롭/정렬로 전처리하고; ResNet-50 및 RegNet 백본으로 특징을 추출하며; Transformer 블록과 시간적 모듈을 통한 시계열 모델링과 업/다운 샘플링 파이프라인을 활용하고; 세 개의 파이프라인 출력을 융합하며; 불균형 처리를 위해 focal loss를 사용한다.

실험 결과

연구 질문

RQ1환경에서의 backbone 융합과 교차-task 상관관계를 통한 valence-arousal 추정을 향상시킬 수 있는가?
RQ2데이터 불균형 하에서 앙상블 및 메타-분류 전략이 얼굴 표현 인식을 향상시킬 수 있는가?
RQ3CNN 백본과 Transformer 기반 시계열 모듈을 사용하여 AU 탐지를 위한 시계적 및 공간적 단서를 효과적으로 모델링할 수 있는가?

주요 결과

방법	Valence CCC	Arousal CCC
baseline	22.0	24.0
ours	25.7	38.3

검증 데이터에서의 Valence 및 arousal CCC: baseline 22.0 (valence) 및 24.0 (arousal); 제안 방법은 25.7 (valence) 및 38.3 (arousal)를 달성했다.
표현 분류: Meta-Classifier가 평가된 구성요소 중 최상의 검증 지표(Acc 0.4618, F1 0.3024)를 달성했다.
AU 탐지: RegNet-800MF 백본이 검증 F1 점수 0.6983으로 가장 높았고, RegNet-400MF(0.6813) 및 ResNet-50(0.5591)보다 뛰어났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.