QUICK REVIEW

[논문 리뷰] Spatio-Temporal Transformer for Dynamic Facial Expression Recognition in the Wild

Fuyan Ma, Bin Sun|arXiv (Cornell University)|2022. 05. 10.

Emotion and Mood Recognition인용 수 27

한 줄 요약

본 논문은 공동 공간-시간 주의가 결합된 시공간 트랜스포머(STT)와 간결한 소프트맥스 교차 엔트로피 손실을 제안하여 야생 환경에서의 동적 표정 인식을 개선하고, DFEW 및 AFEW 데이터셋에서 최첨단 성능을 달성한다.

ABSTRACT

Previous methods for dynamic facial expression in the wild are mainly based on Convolutional Neural Networks (CNNs), whose local operations ignore the long-range dependencies in videos. To solve this problem, we propose the spatio-temporal Transformer (STT) to capture discriminative features within each frame and model contextual relationships among frames. Spatio-temporal dependencies are captured and integrated by our unified Transformer. Specifically, given an image sequence consisting of multiple frames as input, we utilize the CNN backbone to translate each frame into a visual feature sequence. Subsequently, the spatial attention and the temporal attention within each block are jointly applied for learning spatio-temporal representations at the sequence level. In addition, we propose the compact softmax cross entropy loss to further encourage the learned features have the minimum intra-class distance and the maximum inter-class distance. Experiments on two in-the-wild dynamic facial expression datasets (i.e., DFEW and AFEW) indicate that our method provides an effective way to make use of the spatial and temporal dependencies for dynamic facial expression recognition. The source code and the training logs will be made publicly available.

연구 동기 및 목표

야생 환경에서의 동적 표정 인식을 고취하고 장거리 의존성을 놓치는 CNN 기반 방법의 한계를 해결한다.
구별 가능한 프레임별 특징과 프레임 간 맥락을 포착하기 위한 시공간 트랜스포머를 개발한다.
클래스 내 거리를 좁히고 클래스 간 거리를 확장하기 위한 간결한 소프트맥스 교차 엔트로피 손실을 도입한다.
대규모 야생 DFER 데이터셋에서 효과를 입증하고 학습된 영역과 특징 분포의 시각화를 제공한다.

제안 방법

비디오 시퀀스에서 프레임 수준 특징을 추출하기 위해 CNN 백본(ResNet18)을 사용한다.
프레임 특징을 토큰 시퀀스로 변환하고 공동 다중 헤드 공간 및 시간 주의가 있는 시공간 트랜스포머를 사용한다.
학습 가능한 공간 및 시간 위치 임베딩과 시퀀스 수준 예측을 위한 분류 토큰을 도입한다.
대칭 KL 발산을 비목표 예측에 적용하여 intra-class를 좁히고 inter-class 거리를 확대하는 간결한 소프트맥스 교차 엔트로피 손실을 적용한다.
표준 데이터 전처리 및 교차검증 프로토콜과 함께 DFEW와 AFEW에서 학습하고 평가한다.

실험 결과

연구 질문

RQ1야생 DFER에서 얼굴 표정 시퀀스의 시공간 의존성을 트랜스포머로 효과적으로 어떻게 모델링할 수 있는가?
RQ2공간 및 시간 주의를 공동으로 모델링하는 것이 기준 시퀀스 모델보다 인식 성능을 향상시키는가?
RQ3 intra-class 유사성을 강화하고 inter-class 분리 가능성을 높이는 정규화된 손실 함수가 성능을 더 향상시킬 수 있는가?
RQ4제안된 방법이 DFEW와 AFEW에서 최첨단 방법과 어떻게 비교되는가?

주요 결과

공간 및 시간 주의를 공동으로 사용하는 시공간 트랜스포머가 기준보다 인식 성능을 향상시킨다.
간결한 소프트맥스 교차 엔트로피 손실은 클래스 내 거리를 줄이고 클래스 간 거리를 늘려 판별력을 향상시킨다.
이 방법은 이전의 시공간 모델과 비교하여 DFEW와 AFEW에서 최첨단 결과를 달성한다.
Grad-CAM 시각화는 STT가 포착한 구별 가능한 얼굴 영역과 시간적 상관 관계를 보여준다.
t-SNE 시각화는 제안된 손실을 사용할 때 intra-class 군집이 더 촘촘해지고 inter-class 분리가 더 선명해지는 것을 나타낸다.
공간 주의, 시간 주의 및 제안된 손실의 성능 향상 기여를 검증하는 소거 연구를 수행했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.