[논문 리뷰] Face Behavior a la carte: Expressions, Affect and Action Units in a Single Network
저자들은 FaceBehaviorNet을 소개합니다. 이는 in-the-wild 데이터에서 7개의 기본 감정, 17개의 액션 유닛, 그리고 valence-arousal를 공동으로 예측하도록 엔드투엔드로 학습된 홀리스틱(multitask) 네트워크로, 태스크 결합 전략을 통해 단일 태스크 모델보다 성능이 향상됨을 보여줍니다.
Automatic facial behavior analysis has a long history of studies in the intersection of computer vision, physiology and psychology. However it is only recently, with the collection of large-scale datasets and powerful machine learning methods such as deep neural networks, that automatic facial behavior analysis started to thrive. Three of its iconic tasks are automatic recognition of basic expressions (e.g. happy, sad, surprised), estimation of continuous emotions (e.g., valence and arousal), and detection of facial action units (activations of e.g. upper/inner eyebrows, nose wrinkles). Up until now these tasks have been mostly studied independently collecting a dataset for the task. We present the first and the largest study of all facial behaviour tasks learned jointly in a single multi-task, multi-domain and multi-label network, which we call FaceBehaviorNet. For this we utilize all publicly available datasets in the community (around 5M images) that study facial behaviour tasks in-the-wild. We demonstrate that training jointly an end-to-end network for all tasks has consistently better performance than training each of the single-task networks. Furthermore, we propose two simple strategies for coupling the tasks during training, co-annotation and distribution matching, and show the advantages of this approach. Finally we show that FaceBehaviorNet has learned features that encapsulate all aspects of facial behaviour, and can be successfully applied to perform tasks (compound emotion recognition) beyond the ones that it has been trained in a zero- and few-shot learning setting.
연구 동기 및 목표
- 비동질적인(non-homogeneous) 데이터 하에서 표현(표정), AU, 연속적인 정서를 연결하는 얼굴 행동 분석의 홀리스틱 프레임워크를 제안하는 것.
- 학습 중 태스크 간 관련성을 활용하기 위한 실용적 결합 전략(co-annotation 및 distribution matching)을 제안한다.
- 대규모의 부분적으로 중첩된 데이터셋에 대해 FaceBehaviorNet을 엔드투엔드로 학습시켜 태스크 전반의 성능을 향상시킨다.
- 제로샷(zero-shot) 및 피슈트(few-shot) 설정에서 학습된 특징이 합성 표현(compound expressions)에 일반화됨을 보여준다.
제안 방법
- 감정 분류, AU 탐지, 그리고 valence-arousal 회귀를 결합한 다중태스크 목표를 정의한다.
- 결합 전략을 도입한다: co-annotation(예측된 감정 레이블에 대해 prototypical/관찰 기반 AU를 강제), distribution matching(AU 분포를 감정 조건화된 기대값과 정렬), 그리고 변형들(소프트 코-주석, 분포 매칭, 그리고 이들의 조합).
- 7가지 감정, 17개의 AU, VA 출력을 위한 공유 특징과 태스크별 헤드를 갖는 VGG-FACE 기반의 모델 아키텍처.
- 부분 주석에 맞춰 엔드투엔드 최적화를 수행하고 부분 주석을 수용하기 위해 정렬된 배치로 세 가지 데이터 스트림(VA-Set, AU-Set, EXPR-Set)에서 학습한다.
- 인지 연구의 태스크 관련성 표와 경험적 Aff-Wild2 주석을 활용한 결합 가이드를 도입한다.
- 다중-데이터베이스에서 단일 태스크 네트워크 및 베이스라인과 비교하여 최첨단 성능을 평가한다.
실험 결과
연구 질문
- RQ1단일 홀리스틱 네트워크가 표정, AU, 밸런스-각성에 대해 각각 독립적으로 학습한 단일 태스크 모델을 능가할 수 있는가?
- RQ2결합 전략(co-annotation 및 distribution matching)이 교차 태스크 성능과 전반적인 강건성을 향상시키는가?
- RQ3학습된 특징이 제로샷 및 피샷 시나리오에서 합성 표현으로 얼마나 잘 일반화되는가?
- RQ4비동질적인 태스크 관련성과 부분 주석을 활용하여 크고 다양한 데이터셋에서 학습하는 것이 도움이 되는가?
주요 결과
- FaceBehaviorNet은 coupling 손실을 적용할 때 데이터베이스 전반에서 비결합(baseline) 대비 일관되게 성능을 향상시킨다.
- Soft co-annotation 및 distribution matching이 함께 적용될 때 더 좋은 평균 개선을 보이며, 단일 전략에 대한 절단(ablation) 대비 평균 성능이 2% 이상 증가한다.
- 조인트 학습은 valence-arousal, 기본 표현, AU에서 모든 평가 데이터베이스에서 단일 태스크 네트워크보다 우수한 성능을 보인다.
- FaceBehaviorNet은 Aff-Wild, AffectNet, RAF-DB, EmotioNet, DISFA, BP4D, BP4D+에서 결합 손실을 사용할 때 최첨단 방법과 경쟁력 있는 또는 우수한 성능을 달성한다.
- 제로샷 및 피샷 분석은 FaceBehaviorNet이 제한적이거나 추가 학습 데이터 없이도 합성 표현을 지원하는 전달 가능한 특징을 학습함을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.