[논문 리뷰] Expression, Affect, Action Unit Recognition: Aff-Wild2, Multi-Task Learning and ArcFace
저자들은 VA/arousal, 얼굴 액션 유닛, 기본 표현에 주석이 달린 대규모 현장 영상-오디오 데이터셋 Aff-Wild2를 소개하고, 다중 태스크 및 ArcFace 기반 학습 파이프라인을 통해 여러 감정 인식 데이터베이스에서 최첨단 결과를 달성함을 보인다.
Affective computing has been largely limited in terms of available data resources. The need to collect and annotate diverse in-the-wild datasets has become apparent with the rise of deep learning models, as the default approach to address any computer vision task. Some in-the-wild databases have been recently proposed. However: i) their size is small, ii) they are not audiovisual, iii) only a small part is manually annotated, iv) they contain a small number of subjects, or v) they are not annotated for all main behavior tasks (valence-arousal estimation, action unit detection and basic expression classification). To address these, we substantially extend the largest available in-the-wild database (Aff-Wild) to study continuous emotions such as valence and arousal. Furthermore, we annotate parts of the database with basic expressions and action units. As a consequence, for the first time, this allows the joint study of all three types of behavior states. We call this database Aff-Wild2. We conduct extensive experiments with CNN and CNN-RNN architectures that use visual and audio modalities; these networks are trained on Aff-Wild2 and their performance is then evaluated on 10 publicly available emotion databases. We show that the networks achieve state-of-the-art performance for the emotion recognition tasks. Additionally, we adapt the ArcFace loss function in the emotion recognition context and use it for training two new networks on Aff-Wild2 and then re-train them in a variety of diverse expression recognition databases. The networks are shown to improve the existing state-of-the-art. The database, emotion recognition models and source code are available at http://ibug.doc.ic.ac.uk/resources/aff-wild2.
연구 동기 및 목표
- 현장 환경에서 VA, AU, 그리고 표현에 주석이 달린 크고 다양한 현장 데이터셋의 필요성을 동기 부여한다.
- Aff-Wild를 Aff-Wild2로 확장하여 VA 주석과 AU/Expr 주석을 추가하고 세 가지 작업의 공동 분석을 가능하게 한다.
- Aff-Wild2에서 학습하고 10개의 외부 데이터베이스에서 평가하여 데이터베이스 간 일반화 가능성을 평가한다.
- Aff-Wild2에서 학습된 ArcFace 기반 네트워크를 다양한 표현 데이터베이스에서 재학습시켜 감정 인식에서의 ArcFace 손실의 효과를 조사한다.
제안 방법
- 시각(얼굴 자르기) 및 오디오(스펙트로그램) 모달리티를 위한 세 가지 전처리 스트림을 도입한다.
- 단일-/다중태스크 CNN을 학습하고(SphereFace-20, VGGFace, Inception-ResNet에 기초) 이를 다중태스크 CNN-RNN 및 오디오-시각 융합(A/V-MT-VGG-RNN)으로 확장한다.
- 다중 태스크 학습에 표준 손실을 사용: 표현에 대한 교차 엔트로피, AU에 대한 이진 교차 엔트로피, VA에 대한 MSE/CCC를 합산하여 다중태스크 목표로 한다.
- ArcFace 손실(덧셈 각도 여백)을 감정 표현 인식에 적용하여 MT-ArcRes와 MT-ArcVGG 네트워크를 만든다.
- Aff-Wild2에서 네트워크를 사전학습하고 10개의 공개 데이터베이스에서 평가하여 데이터베이스 간 일반화 가능성을 평가한다.
- Aff-Wild2에서 학습되고 다양한 표현 데이터베이스에서 재훈련된 ArcFace 기반 두 네트워크를 제공하여 최첨단 성능을 향상시킨다.
실험 결과
연구 질문
- RQ1Aff-Wild2가 현장 환경에서 VA, AU 및 Expr의 공동 인식을 지원하는가?
- RQ2Aff-Wild2에서 학습된 다중태스크 CNN/CNN-RNN 아키텍처가 다른 감정 데이터베이스에 잘 일반화되는가?
- RQ3현장 설정에서 오디오-시각 융합이 VA, AU, Expr 작업에 이로운가?
- RQ4얼굴 인식에서 감정 태스크로 확장될 때 ArcFace 손실이 표현 인식 성능을 향상시키는가?
주요 결과
- Aff-Wild2는 VA, AUs, 그리고 기본 표현에 주석이 달린 최초의 대규모 현장형 시각-청각 데이터셋으로, 세 가지 작업의 공동 분석을 가능하게 한다.
- MT-VGG 및 MT-VGG-RNN 아키텍처는 Aff-Wild2에서 학습되어 VA 및 Expr 작업에서 10개의 외부 감정 데이터베이스에 대해 최첨단 성능을 달성하며, 오디오-비주얼 융합이 추가 이득을 제공한다.
- Aff-Wild2에서 학습하고 다양한 표현 데이터베이스에서 재학습된 ArcFace 기반 네트워크(MT-ArcRes, MT-ArcVGG)가 경쟁 방법을 능가하고 여러 데이터셋에서 새로운 최첨단 결과를 확립한다.
- 정적 및 비디오 데이터베이스에 걸쳐 교차 데이터베이스 평가에서 Aff-Wild2가 강건한 감정 인식 모델의 풍부한 사전 학습 리소스로 나타난다.
- ArcFace 손실은 감정 인식 맥락에서 효과를 보여주며, 얼굴 식별을 넘는 각도 여백 접근법의 가치를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.