[논문 리뷰] Robust Facial Expression Recognition with Convolutional Visual Transformers
이 논문은 주변 환경에서의 강인한 얼굴 표정 인식을 위해 주목사용 병합 및 시각적 토큰의 전역 자기주도 주목을 통해 다중 척도 CNN 특징을 융합하는 컨volutional 뷰어럴 트랜스포머를 제안한다. RAF-DB(88.14%), FERPlus(88.81%), AffectNet(61.85%)에서 최신 기술 수준의 성능을 달성하여 실제 환경의 과제들인 가림, 자세 변화 등에 대한 강건성과 일반화 능력을 입증한다.
Facial Expression Recognition (FER) in the wild is extremely challenging due to occlusions, variant head poses, face deformation and motion blur under unconstrained conditions. Although substantial progresses have been made in automatic FER in the past few decades, previous studies are mainly designed for lab-controlled FER. Real-world occlusions, variant head poses and other issues definitely increase the difficulty of FER on account of these information-deficient regions and complex backgrounds. Different from previous pure CNNs based methods, we argue that it is feasible and practical to translate facial images into sequences of visual words and perform expression recognition from a global perspective. Therefore, we propose Convolutional Visual Transformers to tackle FER in the wild by two main steps. First, we propose an attentional selective fusion (ASF) for leveraging the feature maps generated by two-branch CNNs. The ASF captures discriminative information by fusing multiple features with global-local attention. The fused feature maps are then flattened and projected into sequences of visual words. Second, inspired by the success of Transformers in natural language processing, we propose to model relationships between these visual words with global self-attention. The proposed method are evaluated on three public in-the-wild facial expression datasets (RAF-DB, FERPlus and AffectNet). Under the same settings, extensive experiments demonstrate that our method shows superior performance over other methods, setting new state of the art on RAF-DB with 88.14%, FERPlus with 88.81% and AffectNet with 61.85%. We also conduct cross-dataset evaluation on CK+ show the generalization capability of the proposed method.
연구 동기 및 목표
- 가림, 자세 변화, 운동 블러 등으로 인해 성능이 저하되는 비제약적 실외 환경에서의 얼굴 표정 인식 과제를 해결한다.
- 실험실 환경에서의 제약된 데이터로 훈련된 이전의 CNN 기반 방법의 한계를 극복하기 위해 전역적이고 순서 기반의 모델링 접근법을 도입한다.
- 얼굴 특징를 시각적 단어 시퀀스로 변환하고 자기주도 주목을 통해 장거리 종속성을 모델링하여 강인한 표정 인식을 가능하게 한다.
- CK+에서의 교차 데이터셋 평가를 통해 일반화 능력을 입증한다. 이는 훈련 도메인 외부로의 전이 가능성도 보여준다.
제안 방법
- 얼굴 이미지에서 국소적이고 전역적인 표현을 모두 캡처하기 위해 다중 척도 특징 맵을 추출하기 위해 이중 브랜치 CNN 아키텍처를 사용한다.
- 전역-국소 주목을 사용해 특징를 적응적으로 융합함으로써 특징의 분류 능력을 높이는 주목 기반 선택적 융합(ASF) 모듈을 도입한다.
- 융합된 특징 맵을 평탄화하고 시퀀스 형태의 시각적 토큰으로 변환하며, 각 토큰을 학습 가능한 시각적 단어로 간주한다.
- 다중 헤드 자기주도 주목을 갖춘 트랜스포머 인코더를 적용하여 시각적 토큰 간의 장거리 종속성을 모델링함으로써 표정 분류 성능을 향상시킨다.
- 표준 실외 표정 데이터셋에서 교차 엔트로피 손실을 사용해 엔드 투 엔드 모델을 훈련시킨다.
- 시각적 토큰 시퀀스 내의 공간적 관계를 유지하기 위해 위치 인코딩을 활용한다.
실험 결과
연구 질문
- RQ1자기주도 주목으로 모델링된 시각적 토큰 시퀀스는 비제약적 환경에서 얼굴 표정 인식의 강인성을 향상시키는가?
- RQ2주목 기반 특징 융합은 표준 CNN 융합 방식에 비해 분류 능력 향상에 얼마나 기여하는가?
- RQ3제안된 방법은 데이터 분포가 다른 데이터셋 간에도 얼마나 일반화되는가?
- RQ4Transformer의 전역 모델링 능력이 실외 FER 벤치마크에서 국소 수용 영역 기반 CNN보다 뛰어나게 작용하는가?
주요 결과
- 제안된 방법은 표준 평가 설정 하에서 RAF-DB 데이터셋에서 최신 기술 수준의 정확도 88.14%를 달성한다.
- FERPlus 데이터셋에서 88.81%의 정확도를 기록하며, 실외 환경 설정에서 이전 방법들을 능가한다.
- 대규모 AffectNet 데이터셋에서는 61.85%의 정확도를 달성하여 높은 변동성과 실제 환경의 노이즈 상황에서도 효과적임을 입증한다.
- CK+에서의 교차 데이터셋 평가 결과, 강력한 일반화 능력을 보이며, 모델이 강인하고 분리된 얼굴 표정 표현을 학습하고 있음을 시사한다.
- 주목 기반 선택적 융합 메커니즘이 분류 가능한 얼굴 영역에 집중함으로써 특징 표현을 효과적으로 향상시킨다.
- 자기주도 주목을 통한 시각적 토큰 통합은 세 가지 실외 데이터셋에서 순수 CNN 기반 모델 대비 성능 향상에 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.