[논문 리뷰] Region Attention Networks for Pose and Occlusion Robust Facial Expression Recognition
이 논문은 자세와 가림을 고려한 얼굴 표정 인식을 위한 영역 주의 네트워크(RAN)를 제안하며, 임의의 주의를 통해 핵심 얼굴 영역에 집중하고 행동 단위를 우선시하기 위해 영역 편향 손실을 통합한다. 이 방법은 FERPlus, AffectNet, RAF-DB, SFEW에서 최신 기술 수준의 성능을 달성하였으며, FERPlus에서 최대 89.16%의 정확도와 오버샘플링을 적용한 AffectNet에서 59.5%의 정확도를 기록하였다.
Occlusion and pose variations, which can change facial appearance significantly, are two major obstacles for automatic Facial Expression Recognition (FER). Though automatic FER has made substantial progresses in the past few decades, occlusion-robust and pose-invariant issues of FER have received relatively less attention, especially in real-world scenarios. This paper addresses the real-world pose and occlusion robust FER problem with three-fold contributions. First, to stimulate the research of FER under real-world occlusions and variant poses, we build several in-the-wild facial expression datasets with manual annotations for the community. Second, we propose a novel Region Attention Network (RAN), to adaptively capture the importance of facial regions for occlusion and pose variant FER. The RAN aggregates and embeds varied number of region features produced by a backbone convolutional neural network into a compact fixed-length representation. Last, inspired by the fact that facial expressions are mainly defined by facial action units, we propose a region biased loss to encourage high attention weights for the most important regions. We validate our RAN and region biased loss on both our built test datasets and four popular datasets: FERPlus, AffectNet, RAF-DB, and SFEW. Extensive experiments show that our RAN and region biased loss largely improve the performance of FER with occlusion and variant pose. Our method also achieves state-of-the-art results on FERPlus, AffectNet, RAF-DB, and SFEW. Code and the collected test data will be publicly available.
연구 동기 및 목표
- 가림과 자세 변화가 있는 실세계 데이터셋에 대한 실제 레이블이 부족한 문제를 해결한다.
- 자세적으로 얼굴 영역을 가중치를 조정하는 딥 러닝 모델을 개발하여 가림과 자세 변화에 대한 강건성을 향상시킨다.
- 표현 인식에 핵심적인 행동 단위와 관련된 얼굴 영역에 대한 주의를 유도하기 위해 영역 편향 손실 함수를 설계한다.
- 어려운 실세계 조건에서 다양한 벤치마크 데이터셋에서 최신 기술 수준의 성능을 입증한다.
제안 방법
- FERPlus, AffectNet, RAF-DB, SFEW와 같은 실외 데이터셋에 자세 및 가림 속성을 레이블링하여 새로운 벤치마크 테스트 세트를 구축한다.
- 자기 주의 및 관계 주의 모듈을 사용하여 다수의 얼굴 영역 특징을 고정 길이 표현으로 통합하는 영역 주의 네트워크(RAN)를 제안한다.
- 핵심 행동 단위와 관련된 얼굴 영역에 대해 높은 주의 가중치를 유도하기 위해 영역 편향 손실(RB-Loss)을 통합한다.
- 백본 CNN(예: ResNet18, VGG16)을 사용해 영역 특징을 추출한 후, RAN을 통해 종합적인 주의 가중치를 엔드 투 엔드 방식으로 학습한다.
- 희귀하거나 어려운 샘플에 대한 특징 학습을 향상시키기 위해 영역 자르기 및 크기 조정을 통한 데이터 증강을 적용한다.
- RAN과 RB-Loss를 사용해 사전 학습된 모델(예: VGGFace, MS-Celeb-1M)을 미세 조정하여 실세계 FER에서의 일반화 능력을 향상시킨다.
실험 결과
연구 질문
- RQ1기존의 얼굴 표정 인식 모델은 실세계 데이터셋에서 가림과 자세 변화로 인해 성능이 얼마나 떨어지는가?
- RQ2얼굴 영역에 집중하는 학습 가능한 주의 메커니즘이 FER에서 가림과 자세 변화에 대한 강건성을 향상시킬 수 있는가?
- RQ3영역 편향 손실 함수가 표현 인식에 핵심적인 행동 단위에 대한 모델 주의를 어느 정도 향상시키는가?
- RQ4제안된 RAN 프레임워크는 실세계의 가림과 자세 조건에서 다양한 벤치마크에서 최신 기술 수준의 성능을 달성하는가?
주요 결과
- 제안된 RAN은 FERPlus에서 89.16%의 정확도를 달성하여 이전 최신 기술 수준의 방법을 초월하며 새로운 SOTA를 수립하였다.
- AffectNet에서는 오버샘플링을 적용한 RAN 모델이 더 큰 네트워크나 추가 데이터셋을 사용한 이전 방법들을 능가하는 59.5%의 정확도를 기록하였다.
- RAF-DB에서는 RAN이 86.90%의 정확도를 기록하였으며, DLP-CNN 및 gACNN보다 각각 2.77%와 1.83% 높았다.
- SFEW에서는 단일 모델로 54.19%의 정확도를 달성하여 현재까지 보고된 바 있는 최고의 단일 모델 성능이었다.
- RAN-ResNet18과 RAN-VGG16를 조합한 앙상블 모델은 SFEW에서 56.4%의 정확도를 기록하여 이전의 앙상블 방법들을 능가하였다.
- RAN 모델은 추론 시간을 0.025초로 늘렸지만(기본 모델 대비 0.006초), 효율적인 GPU 병렬 처리를 유지하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.