[논문 리뷰] MViT: Mask Vision Transformer for Facial Expression Recognition in the wild.
이 논문은 야외 환경에서의 얼굴 표정 인식(Facial Expression Recognition, FER)을 위한 순수 트랜스포머 기반 모델인 MViT를 제안한다. 이 모델은 배경 및 가림 현상 노이즈를 억제하기 위한 마스크 생성 네트워크(MGN)와 잘못된 애너테이션을 보정하기 위한 동적 리레이블링 모듈을 포함한다. MViT는 RAF-DB(88.62%), FERPlus(89.22%), AffectNet-7(64.57%)에서 최고 성능을 기록하였으며, AffectNet-8(61.40%)에서도 뛰어난 성능을 보였다.
Facial Expression Recognition (FER) in the wild is an extremely challenging task in computer vision due to variant backgrounds, low-quality facial images, and the subjectiveness of annotators. These uncertainties make it difficult for neural networks to learn robust features on limited-scale datasets. Moreover, the networks can be easily distributed by the above factors and perform incorrect decisions. Recently, vision transformer (ViT) and data-efficient image transformers (DeiT) present their significant performance in traditional classification tasks. The self-attention mechanism makes transformers obtain a global receptive field in the first layer which dramatically enhances the feature extraction capability. In this work, we first propose a novel pure transformer-based mask vision transformer (MVT) for FER in the wild, which consists of two modules: a transformer-based mask generation network (MGN) to generate a mask that can filter out complex backgrounds and occlusion of face images, and a dynamic relabeling module to rectify incorrect labels in FER datasets in the wild. Extensive experimental results demonstrate that our MVT outperforms state-of-the-art methods on RAF-DB with 88.62%, FERPlus with 89.22%, and AffectNet-7 with 64.57%, respectively, and achieves a comparable result on AffectNet-8 with 61.40%.
연구 동기 및 목표
- 복잡한 배경, 낮은 이미지 품질, 주관적인 인간 애너테이션 등으로 인해 야외 환경에서의 얼굴 표정 인식(FER)에 직면하는 과제를 해결한다.
- 노이즈가 많고 다양한, 모호한 실생활 얼굴 데이터를 다루는 데 어려움을 겪는 기존 모델의 한계를 극복한다.
- 전역적 맥락 모델링과 주의 메커니즘을 통해 특징 학습을 향상시키는 순수 트랜스포머 기반 아키텍처를 개발한다.
- 배경과 가림 영역과 같은 관련 없는 영역을 제거하기 위해 마스크 생성 네트워크(MGN)를 도입한다.
- 주목적 기반의 불확실성 추정을 사용해 기존 FER 데이터셋의 잘못된 레이블을 재평가하고 수정하는 동적 리레이블링 모듈을 제안한다.
제안 방법
- 입력 이미지의 비면역 영역을 억제하기 위해 공간 마스크를 예측하는 트랜스포머 기반 마스크 생성 네트워크(MGN)를 설계한다.
- 예측된 마스크를 사용해 관련 있는 얼굴 영역에만 주목함으로써, 복잡한 배경과 가림 현상으로 인한 간섭을 줄인다.
- 주목적 기반의 불확실성 추정을 사용해 FER 데이터셋의 잘못된 레이블을 재평가하고 수정하는 동적 리레이블링 모듈을 구현한다.
- 표준 FER 벤치마크에서 표준 분류 헤드를 사용해 엔드 투 엔드로 MViT 모델을 훈련시키며, 자기 주목 메커니즘을 활용해 전역적 특징 추출을 수행한다.
- 훈련 중에 MGN과 동적 리레이블링 모듈을 적용해 특징의 강건성과 레이블 일관성을 향상시킨다.
- 비전 트랜스포머의 전역 수신 영역을 활용해 얼굴 영역 간의 장거리 의존성을 포착함으로써 표정 구분 능력을 향상시킨다.
실험 결과
연구 질문
- RQ1실생활 조건에서 순수 트랜스포머 기반 아키텍처가 컨볼루션 네트워크를 능가할 수 있는가?
- RQ2학습된 마스크 생성 네트워크가 배경 및 가림 노이즈를 걸러내어 성능 향상에 얼마나 기여하는가?
- RQ3기존 FER 데이터셋의 잘못된 레이블을 보정하는 데 동적 리레이블링이 얼마나 효과적인가?
- RQ4마스크 생성과 레이블 보정을 결합했을 때 다양한 FER 벤치마크에서 일관된 성능 향상이 이루어지는가?
- RQ5MViT 프레임워크는 RAF-DB, FERPlus, AffectNet-7, AffectNet-8를 포함한 여러 벤치마크에서 최고 성능을 달성할 수 있는가?
주요 결과
- MViT는 RAF-DB에서 88.62%의 정확도를 기록하여 이전 최고 성능 기록을 초월했다.
- FERPlus에서 MViT는 89.22%의 정확도를 달성하여 도전적인 실생활 데이터셋에서 뛰어난 성능을 보였다.
- AffectNet-7에서는 64.57%의 정확도를 기록하여 이 벤치마크에서 새로운 최고 기록을 수립했다.
- AffectNet-8에서는 61.40%의 정확도를 기록하여 높은 다양성과 애너테이션 노이즈가 존재하는 데이터셋에서도 경쟁 가능한 성능을 보였다.
- 제거 실험 결과, 마스크 생성 네트워크와 동적 리레이블링 모듈이 성능 향상에 기여하는 것으로 확인되었다.
- MViT의 전역 주목 메커니즘은 얼굴 영역 간의 장거리 의존성을 포착함으로써 더 나은 특징 학습을 가능하게 했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.