[논문 리뷰] MVT: Mask Vision Transformer for Facial Expression Recognition in the wild
논문은 야생에서 FER을 위한 순수 트랜스포머 기반 Mask Vision Transformer (MVT)를 도입하며, 마스크 생성 네트워크 (MGN)와 동적 재레이블링 모듈을 특징으로 하고 RAF-DB, FERPlus, AffectNet-7에서 최첨단 성능을 달성했으며 AffectNet-8에서도 비교 가능한 결과를 보인다.
Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.
연구 동기 및 목표
- 도전적인 배경, 가림, 주석 불확실성을 가진 야생에서의 얼굴 표정 인식 문제를 다룬다.
- 백그라운드 노이즈를 걸러내기 위한 마스킹을 사용하는 순수 트랜스포머 기반 FER 프레이워크(MVT)를 제안한다.
- 학습 중 잘못 표기된 샘플을 교정하기 위한 동적 재레이블링 전략을 도입한다.
- 다양한 야생 데이터셋 전반에 걸쳐 견고한 FER 성능을 달성하기 위해 사전 학습된 Vision Transformer를 활용한다.
제안 방법
- 배경과 가림을 억제하는 이미지당 마스크를 생성하기 위해 트랜스포머를 기반으로 한 마스크 생성 네트워크(MGN)를 도입한다.
- 마스크가 적용된 이미지를 ViT/DeiT-S 백본의 표현 분류를 위해 클래스 토큰을 사용하여 비전 트랜스포머에 입력한다.
- 예측 표정의 분산과 목표 마스크 영역을 통해 선택적 마스킹을 유도하는 새로운 생성기 손실을 가진 변환기 판별기를 사용하는 GAN 유사 설정으로 MGN을 학습한다.
- 주어진 레이블 확률 P_gt에 따라 임계값 f(P_gt) + δ로 라벨 재레이블링을 결정하는 동적 재레이블링 모듈을 적용한다. 임계값은 주어진 레이블 확률 P_gt에 따라 증가한다.
- 마스 masking된 입력에서 분류기(DeiT-S)를 미세조정하고 FER 학습 중 MGN은 고정한다.
실험 결과
연구 질문
- RQ1학습된 마스크를 사용하여 확장된 순수 트랜스포머 아키텍처가 야생에서 FER을 효과적으로 처리할 수 있는가?
- RQ2동적 재레이블링 전략이 야생 FER 데이터셋에서 학습 안정성과 정확도를 향상시키는가?
- RQ3마스킹이 RAF-DB, FERPlus, AffectNet 전반에서 배경, 가림, 포즈 변동에 대한 강인성에 어떤 영향을 미치는가?
주요 결과
- MVT는 RAF-DB에서 88.62%, FERPlus에서 89.22%, AffectNet-7에서 64.57%, AffectNet-8에서 61.40%를 달성한다.
- Mask Generation Network (MGN)은 배경과 가림을 효과적으로 필터링하여 기준선 대비 정확도를 향상시킨다.
- 동적 재레이블링은 고정 임계 재레이블링을 능가하고 데이터셋 전반에 걸친 학습을 안정화한다.
- 본 방법은 RAF-DB, FERPlus, AffectNet-7에서 최첨단 결과를, AffectNet-8에서 경쟁력 있는 결과를 보인다.
- 분해 실험은 마스크 비율과 동적 재레이블링 함수 선택이 성능에 영향을 주며 데이터셋별 최적 설정이 있음을 보여주고, 예를 들어 RAF-DB의 m=15%, FERPlus의 m=20%와 같은 설정이 있다.
- 해당 방법은 가림 및 포즈 변화에 강건하며 Occlusion-RAF-DB에서 기준선보다 우수하고 Pose-RAF-DB에서도 경쟁력 있는 결과를 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.