[논문 리뷰] Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout
본 논문은 시각 및 오디오 특징을 안전한 크로스-어텐션과 모달리티 드롭아웃으로 누락된 모달리티를 처리하며 융합하는 이중 분기 Transformer 모델을 제시하고, Aff-Wild2 검증에서 60.79% 정확도와 0.5029 F1을 달성한다.
Emotion recognition in real-world environments is hindered by partial occlusions, missing modalities, and severe class imbalance. To address these issues, particularly for the Affective Behavior Analysis in-the-wild (ABAW) Expression challenge, we propose a multimodal framework that dynamically fuses visual and audio representations. Our approach uses a dual-branch Transformer architecture featuring a safe cross-attention mechanism and a modality dropout strategy. This design allows the network to rely on audio-based predictions when visual cues are absent. To mitigate the long-tail distribution of the Aff-Wild2 dataset, we apply focal loss optimization, combined with a sliding-window soft voting strategy to capture dynamic emotional transitions and reduce frame-level classification jitter. Experiments demonstrate that our framework effectively handles missing modalities and complex spatiotemporal dependencies, achieving an accuracy of 60.79% and an F1-score of 0.5029 on the Aff-Wild2 validation set.
연구 동기 및 목표
- 실내가 아닌 환경에서 안면 표정 인식의 occlusion 및 누락 모달리티 문제를 다룬다.
- Aff-Wild2의 긴 꼬리 클래스 분포에 대한 로버스트함을 포컬 손실로 향상시킨다.
- 슬라이딩 윈도우 소프트 보팅으로 동적 시공간 의존성을 포착한다.
- 시각 정보가 없을 때 점진적인 악화로_audio-전용 예측으로의 우아한 degrade를 가능하게 한다.
- Aff-Wild2에서 아키텍처 구성과 모달리티 기여를 평가한다.
제안 방법
- BEiT-large를 이용한 시각 특징 추출과 WavLM-large를 이용한 오디오 특징 추출의 2단계 프로세스.
- 상호 모달 상호작용을 위한 크로스-어텐션과 학습 가능한 게이팅 융합 기제를 갖춘 이중 분기 Transformer.
- 훈련 중 모달리티 드롭아웃과 전체 시각 부재를 처리하기 위한 안전한 어텐션 메커니즘.
- 롱-테일 클래스 불균형을 완화하기 위한 포컬 로스, 손실에서 무효 프레임은 무시.
- 오버랩되는 슬라이딩 윈도우와 로짓 기반 소프트 보팅으로 추론을 수행하고, 시계열 스무딩을 위한 중앙값 필터링을 적용.
실험 결과
연구 질문
- RQ1비제약적 얼굴 표정 인식에서 누락된 모달리티에 대해 다중 모달 융합을 어떻게 강건하게 만들 수 있는가?
- RQ2모달리티 드롭아웃과 안전한 크로스-어텐션이 가려짐이나 시각 드롭아웃 하에서 성능을 향상시키는가?
- RQ3Aff-Wild2에서 포컬 손실과 슬라이딩 윈도우 추론이 긴 꼬리 문제와 시간적 지터를 완화하는가?
- RQ4실외 환경에서 표현 인식에 있어 시각 대 오디오 모달리티의 상대적 기여도는 어느 정도인가?
- RQ5Aff-Wild2에서 성능과 일반화 사이의 균형을 맞추는 아키텍처 구성은 무엇인가?
주요 결과
- 프레임워크가 Aff-Wild2 검증 세트에서 60.79% 정확도와 0.5029 F1을 달성한다.
- 시각 특징이 지배적 모달리티이지만, 오디오가 보완적 신호를 제공하여 융합 성능을 향상시킨다.
- 모달리티 드롭아웃(p = 0.10)은 강건성과 내결함성을 향상시키며, 더 높은 p는 성능을 악화시킨다.
- 안전한 크로스-어텐션은 시각이 없을 때 오디오 전용 예측으로의 우아한 degrade를 가능하게 한다.
- 슬라이딩 윈도우 소프트 보팅과 중앙값 필터링은 프레임 수준의 지터를 줄이고 감정 변화들을 포착한다.
- BEiT-large 시각 백본은 테스트한 백본들 중 최상의 검증 성능을 보이며(BEiT-large: Acc 0.5421, F1 0.4268).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.