[논문 리뷰] NR-DFERNet: Noise-Robust Network for Dynamic Facial Expression Recognition
NR-DFERNet은 동적-정적 공간 특징을 융합하고, 시간 프레이밍을 위한 동적 클래스 토큰을 사용하며, 야생 영상 데이터에서 잡음 많은 프레임을 완화하기 위해 의사결정 시점에 스니펫 기반 필터를 도입하여 DFER에 대한 잡음 강건한 아키텍처를 제시합니다. DFEW에서 최첨단 성능을 달성하고 AFEW에서도 경쟁력 있는 결과를 보입니다.
Dynamic facial expression recognition (DFER) in the wild is an extremely challenging task, due to a large number of noisy frames in the video sequences. Previous works focus on extracting more discriminative features, but ignore distinguishing the key frames from the noisy frames. To tackle this problem, we propose a noise-robust dynamic facial expression recognition network (NR-DFERNet), which can effectively reduce the interference of noisy frames on the DFER task. Specifically, at the spatial stage, we devise a dynamic-static fusion module (DSF) that introduces dynamic features to static features for learning more discriminative spatial features. To suppress the impact of target irrelevant frames, we introduce a novel dynamic class token (DCT) for the transformer at the temporal stage. Moreover, we design a snippet-based filter (SF) at the decision stage to reduce the effect of too many neutral frames on non-neutral sequence classification. Extensive experimental results demonstrate that our NR-DFERNet outperforms the state-of-the-art methods on both the DFEW and AFEW benchmarks.
연구 동기 및 목표
- 현실 세계의 잡음 하에서 핵심 프레임과 노이즈 프레임을 구분하여 강인한 DFER를 목표로 한다.
- 표현 신호를 보존하면서 노이즈를 억제하는 공간적, 시간적, 의사결정 단계 구성요소를 개발한다.
- 동적-정적 융합이 공간 식별력을 향상시키고 강건성을 높임을 입증한다.
- 동적 클래스 토큰이 트랜스포머가 대상 관련 프레임에 집중하도록 돕는다는 것을 보인다.
- 의사결정 단계에서 스니펫 기반 필터의 효과를 입증하여 중립 프레임 과다를 다룬다.
제안 방법
- 다운샘플된 정적 특징과 함께 동적 프레임 차이를 결합하는 다이나믹-정적 융합 모듈.
- 타깃 비관련 프레임을 약화시키기 위해 동적 클래스 토큰을 사용하는 트랜스포머 기반 시간적 단계.
- 중립이 지배적인 스니펫의 가중치를 낮추고 비중립 판정을 선호하도록 의사결정 단계에서 스니펫 기반 필터를 적용한다.
- 학습/테스트 중 클립의 동적 샘플링으로 길이-16 시퀀스를 생성한다.
- DSF, DCT, SF의 UAR 및 WAR 기여를 검증하는 제거 연구(애블레이션 스터디).
- 교차 검증과 사전 학습 전략을 위한 DFEW 및 AFEW 벤치마크 실험.
실험 결과
연구 질문
- RQ1NR-DFERNet이 야생 DFER 시퀀스에서 잡음 프레임(N1 및 N2)의 영향을 억제할 수 있는가?
- RQ2동적 및 정적 공간 특징의 통합이 동적 표현의 식별력을 향상시키는가?
- RQ3동적 클래스 토큰이 주의 기반 융합 과정에서 시간적 프레임 선택을 개선하는가?
- RQ4의사결정 단계의 스니펫 기반 필터가 과다한 중립 프레임으로 인한 오분류를 줄이는 데 효과적인가?
- RQ5NR-DFERNet이 DFEW와 AFEW 데이터셋에서 최첨단 방법들과 비교하여 어떤 성능을 보이는가?
주요 결과
| 방법 | 샘플 | 행복 | 슬픔 | 중립 | 분노 | 놀람 | 혐오 | 두려움 | UAR | WAR | (G) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| C3D | DS | - | - | - | - | - | - | - | - | - | - |
| Former-DFER | DS | 84.05 | 62.57 | 67.52 | 70.03 | 56.43 | 3.45 | 31.78 | 53.69 | 65.70 | 9.11 |
| NR-DFERNet | DS | 88.47 | 64.84 | 70.03 | 75.09 | 61.60 | 0.00 | 19.43 | 54.21 | 68.19 | 6.33 |
| NR-DFERNet ∗ | DS | 86.42 | 65.10 | 70.40 | 72.88 | 50.10 | 0.00 | 45.44 | 55.77 | 68.01 | 6.33 |
- DSF, DCT, SF를 갖춘 NR-DFERNet은 DFEW에서 최첨단 UAR/WAR을 달성한다(예: 표준 설정에서 88.47/53.54).
- 동적-정적 융합은 기본선 대비 WAR과 UAR를 일관되게 향상시킨다.
- 동적 클래스 토큰은 대상 관련 프레임에 대한 간섭을 줄여 추가 이득을 제공하며, 예를 들어 애블레이션에서 UAR/WAR가 약 1.15/1.95ppt 증가한다.
- 스니펫 기반 필터는 전반적 모델 정확도가 높아질수록 이득이 커지며 중립 프레임 지배를 다루는 역할을 확인한다.
- AFEW에서 NR-DFERNet은 여러 기본선보다 성능이 높으며 DFEW에서 선행 학습하고 AFEW에서 미세조정할 때 Former-DFER에 근접하거나 이를 상회한다.
- 오버샘플링을 사용한 DFEW 전반에서 NR-DFERNet은 클래스 불균형 완화 하에서 Former-DFER보다 UAR 2.08%, WAR 2.31% 우수하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.