Skip to main content
QUICK REVIEW

[논문 리뷰] MVT: Mask Vision Transformer for Facial Expression Recognition in the wild

Hanting Li, Mingzhe Sui|arXiv (Cornell University)|2021. 06. 08.
Emotion and Mood Recognition인용 수 48
한 줄 요약

논문은 야생에서 FER을 위한 순수 트랜스포머 기반 Mask Vision Transformer (MVT)를 도입하며, 마스크 생성 네트워크 (MGN)와 동적 재레이블링 모듈을 특징으로 하고 RAF-DB, FERPlus, AffectNet-7에서 최첨단 성능을 달성했으며 AffectNet-8에서도 비교 가능한 결과를 보인다.

ABSTRACT

Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.

연구 동기 및 목표

  • 도전적인 배경, 가림, 주석 불확실성을 가진 야생에서의 얼굴 표정 인식 문제를 다룬다.
  • 백그라운드 노이즈를 걸러내기 위한 마스킹을 사용하는 순수 트랜스포머 기반 FER 프레이워크(MVT)를 제안한다.
  • 학습 중 잘못 표기된 샘플을 교정하기 위한 동적 재레이블링 전략을 도입한다.
  • 다양한 야생 데이터셋 전반에 걸쳐 견고한 FER 성능을 달성하기 위해 사전 학습된 Vision Transformer를 활용한다.

제안 방법

  • 배경과 가림을 억제하는 이미지당 마스크를 생성하기 위해 트랜스포머를 기반으로 한 마스크 생성 네트워크(MGN)를 도입한다.
  • 마스크가 적용된 이미지를 ViT/DeiT-S 백본의 표현 분류를 위해 클래스 토큰을 사용하여 비전 트랜스포머에 입력한다.
  • 예측 표정의 분산과 목표 마스크 영역을 통해 선택적 마스킹을 유도하는 새로운 생성기 손실을 가진 변환기 판별기를 사용하는 GAN 유사 설정으로 MGN을 학습한다.
  • 주어진 레이블 확률 P_gt에 따라 임계값 f(P_gt) + δ로 라벨 재레이블링을 결정하는 동적 재레이블링 모듈을 적용한다. 임계값은 주어진 레이블 확률 P_gt에 따라 증가한다.
  • 마스 masking된 입력에서 분류기(DeiT-S)를 미세조정하고 FER 학습 중 MGN은 고정한다.

실험 결과

연구 질문

  • RQ1학습된 마스크를 사용하여 확장된 순수 트랜스포머 아키텍처가 야생에서 FER을 효과적으로 처리할 수 있는가?
  • RQ2동적 재레이블링 전략이 야생 FER 데이터셋에서 학습 안정성과 정확도를 향상시키는가?
  • RQ3마스킹이 RAF-DB, FERPlus, AffectNet 전반에서 배경, 가림, 포즈 변동에 대한 강인성에 어떤 영향을 미치는가?

주요 결과

  • MVT는 RAF-DB에서 88.62%, FERPlus에서 89.22%, AffectNet-7에서 64.57%, AffectNet-8에서 61.40%를 달성한다.
  • Mask Generation Network (MGN)은 배경과 가림을 효과적으로 필터링하여 기준선 대비 정확도를 향상시킨다.
  • 동적 재레이블링은 고정 임계 재레이블링을 능가하고 데이터셋 전반에 걸친 학습을 안정화한다.
  • 본 방법은 RAF-DB, FERPlus, AffectNet-7에서 최첨단 결과를, AffectNet-8에서 경쟁력 있는 결과를 보인다.
  • 분해 실험은 마스크 비율과 동적 재레이블링 함수 선택이 성능에 영향을 주며 데이터셋별 최적 설정이 있음을 보여주고, 예를 들어 RAF-DB의 m=15%, FERPlus의 m=20%와 같은 설정이 있다.
  • 해당 방법은 가림 및 포즈 변화에 강건하며 Occlusion-RAF-DB에서 기준선보다 우수하고 Pose-RAF-DB에서도 경쟁력 있는 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.