QUICK REVIEW

[논문 리뷰] MViT: Mask Vision Transformer for Facial Expression Recognition in the wild.

Hanting Li, Mingzhe Sui|arXiv (Cornell University)|2021. 06. 08.

Emotion and Mood Recognition참고 문헌 43인용 수 23

한 줄 요약

이 논문은 야외 환경에서의 얼굴 표정 인식(Facial Expression Recognition, FER)을 위한 순수 트랜스포머 기반 모델인 MViT를 제안한다. 이 모델은 배경 및 가림 현상 노이즈를 억제하기 위한 마스크 생성 네트워크(MGN)와 잘못된 애너테이션을 보정하기 위한 동적 리레이블링 모듈을 포함한다. MViT는 RAF-DB(88.62%), FERPlus(89.22%), AffectNet-7(64.57%)에서 최고 성능을 기록하였으며, AffectNet-8(61.40%)에서도 뛰어난 성능을 보였다.

ABSTRACT

Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.

연구 동기 및 목표

복잡한 배경, 낮은 이미지 품질, 주관적인 인간 애너테이션 등으로 인해 야외 환경에서의 얼굴 표정 인식(FER)에 직면하는 과제를 해결한다.
노이즈가 많고 다양한, 모호한 실생활 얼굴 데이터를 다루는 데 어려움을 겪는 기존 모델의 한계를 극복한다.
전역적 맥락 모델링과 주의 메커니즘을 통해 특징 학습을 향상시키는 순수 트랜스포머 기반 아키텍처를 개발한다.
배경과 가림 영역과 같은 관련 없는 영역을 제거하기 위해 마스크 생성 네트워크(MGN)를 도입한다.
주목적 기반의 불확실성 추정을 사용해 기존 FER 데이터셋의 잘못된 레이블을 재평가하고 수정하는 동적 리레이블링 모듈을 제안한다.

제안 방법

입력 이미지의 비면역 영역을 억제하기 위해 공간 마스크를 예측하는 트랜스포머 기반 마스크 생성 네트워크(MGN)를 설계한다.
예측된 마스크를 사용해 관련 있는 얼굴 영역에만 주목함으로써, 복잡한 배경과 가림 현상으로 인한 간섭을 줄인다.
주목적 기반의 불확실성 추정을 사용해 FER 데이터셋의 잘못된 레이블을 재평가하고 수정하는 동적 리레이블링 모듈을 구현한다.
표준 FER 벤치마크에서 표준 분류 헤드를 사용해 엔드 투 엔드로 MViT 모델을 훈련시키며, 자기 주목 메커니즘을 활용해 전역적 특징 추출을 수행한다.
훈련 중에 MGN과 동적 리레이블링 모듈을 적용해 특징의 강건성과 레이블 일관성을 향상시킨다.
비전 트랜스포머의 전역 수신 영역을 활용해 얼굴 영역 간의 장거리 의존성을 포착함으로써 표정 구분 능력을 향상시킨다.

실험 결과

연구 질문

RQ1실생활 조건에서 순수 트랜스포머 기반 아키텍처가 컨볼루션 네트워크를 능가할 수 있는가?
RQ2학습된 마스크 생성 네트워크가 배경 및 가림 노이즈를 걸러내어 성능 향상에 얼마나 기여하는가?
RQ3기존 FER 데이터셋의 잘못된 레이블을 보정하는 데 동적 리레이블링이 얼마나 효과적인가?
RQ4마스크 생성과 레이블 보정을 결합했을 때 다양한 FER 벤치마크에서 일관된 성능 향상이 이루어지는가?
RQ5MViT 프레임워크는 RAF-DB, FERPlus, AffectNet-7, AffectNet-8를 포함한 여러 벤치마크에서 최고 성능을 달성할 수 있는가?

주요 결과

MViT는 RAF-DB에서 88.62%의 정확도를 기록하여 이전 최고 성능 기록을 초월했다.
FERPlus에서 MViT는 89.22%의 정확도를 달성하여 도전적인 실생활 데이터셋에서 뛰어난 성능을 보였다.
AffectNet-7에서는 64.57%의 정확도를 기록하여 이 벤치마크에서 새로운 최고 기록을 수립했다.
AffectNet-8에서는 61.40%의 정확도를 기록하여 높은 다양성과 애너테이션 노이즈가 존재하는 데이터셋에서도 경쟁 가능한 성능을 보였다.
제거 실험 결과, 마스크 생성 네트워크와 동적 리레이블링 모듈이 성능 향상에 기여하는 것으로 확인되었다.
MViT의 전역 주목 메커니즘은 얼굴 영역 간의 장거리 의존성을 포착함으로써 더 나은 특징 학습을 가능하게 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.