QUICK REVIEW

[논문 리뷰] Prior Aided Streaming Network for Multi-task Affective Recognitionat the 2nd ABAW2 Competition

Wei Zhang, Zunhu Guo|arXiv (Cornell University)|2021. 07. 08.

Emotion and Mood Recognition참고 문헌 27인용 수 24

한 줄 요약

이 논문은 ABAW2 경쟁에서 다중 작업 정서 인식을 위한 사전 지식 기반 스트리밍 네트워크를 제안하며, 행동 단위(AU), 정서 범주(CE), 밸런스-도전성(VA) 간의 계층적 관계를 고려하여 AU → CE → VA 순서로 스트리밍 방식으로 처리한다. 정체성에 영향을 받지 않는 얼굴 정서 임베딩을 사전 지식으로 통합하여 Aff-Wild2 데이터셋에서 최신 기술 성능을 달성하였으며, AU의 F1 점수는 0.742, CE는 0.790, VA는 CCC 0.495를 기록하였다.

ABSTRACT

Automatic affective recognition has been an important research topic in human computer interaction (HCI) area. With recent development of deep learning techniques and large scale in-the-wild annotated datasets, the facial emotion analysis is now aimed at challenges in the real world settings. In this paper, we introduce our submission to the 2nd Affective Behavior Analysis in-the-wild (ABAW2) Competition. In dealing with different emotion representations, including Categorical Emotions (CE), Action Units (AU), and Valence Arousal (VA), we propose a multi-task streaming network by a heuristic that the three representations are intrinsically associated with each other. Besides, we leverage an advanced facial expression embedding as prior knowledge, which is capable of capturing identity-invariant expression features while preserving the expression similarities, to aid the down-streaming recognition tasks. The extensive quantitative evaluations as well as ablation studies on the Aff-Wild2 dataset prove the effectiveness of our proposed prior aided streaming network approach.

연구 동기 및 목표

다양한 정서 표현 방식을 포함하는 실생활, 외부 환경에서의 다중 작업 정서 인식 도전 과제를 해결한다.
정서 범주(CE), 행동 단위(AU), 밸런스-도전성(VA)를 독립된 작업으로 간주하는 것의 한계를 극복하기 위해 이들의 내재된 계층적 관계를 활용한다.
정체성에 영향을 받지 않는 얼굴 정서 임베딩을 사전 지식으로 통합하여 모델의 일반화 능력과 성능을 향상시킨다.
순차적으로 정서 표현을 처리하여 특징 전이와 작업 일관성을 향상시키는 스트리밍 네트워크 아키텍처를 설계한다.
Aff-Wild2 벤치마크에서 다중 작업 정서 인식 분야에서 최신 기술 성능을 달성한다.

제안 방법

정서의 의미적 계층 구조에 기반해 AU 검출 → CE 분류 → VA 회귀 순서로 얼굴 정서를 순차적으로 처리하는 스트리밍 네트워크를 설계한다.
정체성에 영향을 받지 않는 세밀한 정서 특징을 유지하는 표현 유사성을 보존하는 사전 지식으로 삼을 수 있는 트리플릿 기반 얼굴 정서 임베딩 모델을 백본으로 사용한다.
중간 특징(예: AU 특징과 CE 특징)을 연결하여 고차원 작업을 위한 통합 표현을 형성함으로써 태스크 간 특징 정련을 가능하게 한다.
태스크별 손실 함수 적용: CE에는 소프트맥스 손실, VA 회귀에는 공존 상관계수(CCC)를 사용하며, 누락된 레이블을 처리하기 위해 가중 총합 손실을 적용한다.
일致한 클래스 매핑을 갖는 외부 데이터셋(BP4D, BP4D+, DFEW, AffectNet)을 활용한 데이터 증강을 시행하여 일반화 능력을 향상시킨다.
기존의 AU-CE 매핑을 기반으로 누락된 CE 레이블에 대해 의사 레이블을 생성하여 데이터 불균형 문제를 완화하고 과적합을 줄인다.

실험 결과

연구 질문

RQ1다른 정서 표현 방식(AU, CE, VA) 간의 계층적 관계를 어떻게 활용하여 다중 작업 정서 인식 성능을 향상시킬 수 있는가?
RQ2사전 학습된 정체성에 영향을 받지 않는 얼굴 정서 임베딩을 사전 지식으로 통합할 경우 성능 향상 정도는 어느 정도인가?
RQ3계층적 순서로 작업을 순차적으로 처리하는 스트리밍 네트워크 아키텍처가 병렬 헤드를 갖는 표준 다중 작업 학습보다 우월한가?
RQ4AU-CE 상관관계 기반 의사 레이블링이 누락되거나 불균형한 데이터셋에서 모델의 강건성을 효과적으로 향상시킬 수 있는가?
RQ5각 아키텍처 구성 요소(사전 모델, 스트리밍 설계)가 Aff-Wild2 벤치마크에서 최종 성능에 기여하는 정도는 어느 정도인가?

주요 결과

제안된 사전 지식 기반 스트리밍 네트워크는 공식 검증 세트에서 AU 검출의 테스트 F1 점수 0.742, CE 분류의 0.790, VA 회귀의 CCC 0.495를 기록하였다.
절단 실험 결과, 사전 모델을 제거할 경우 성능은 AU 0.464, CE 0.718, VA 0.422로 떨어졌으며, 이는 사전 지식의 일반화에 대한 핵심적 기여를 확인한다.
스트리밍 아키텍처를 제거할 경우 AU 성능은 0.677로, CE 성능은 0.677로 하락하여 순차적 처리 방식이 특징 일관성을 향상시킨다는 점을 입증한다.
모든 트랙에서 베이스라인 [12]을 초월하였으며, AU F1 점수는 20.6%의 상대적 향상, CE TAcc는 18.6% 향상되었다.
5개의 교차 검증 폴드 결과는 일관된 성능 향상을 확인하였으며, 최고 성능 폴드에서는 AU 0.772, CE 0.783, VA CCC 0.621를 기록하였다.
누락된 CE 레이블에 대한 의사 레이블링 활용이 데이터 불균형 문제 완화에 기여하였으며, 특히 자원이 제한된 상황에서 일반화 능력 향상에 효과적이었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.