QUICK REVIEW

[논문 리뷰] Solution to the 10th ABAW Expression Recognition Challenge: A Robust Multimodal Framework with Safe Cross-Attention and Modality Dropout

Jun Yu, Naixiang Zheng|arXiv (Cornell University)|2026. 03. 09.

Emotion and Mood Recognition인용 수 0

한 줄 요약

본 논문은 시각 및 오디오 특징을 안전한 크로스-어텐션과 모달리티 드롭아웃으로 누락된 모달리티를 처리하며 융합하는 이중 분기 Transformer 모델을 제시하고, Aff-Wild2 검증에서 60.79% 정확도와 0.5029 F1을 달성한다.

ABSTRACT

Emotion recognition in real-world environments is hindered by partial occlusions, missing modalities, and severe class imbalance. To address these issues, particularly for the Affective Behavior Analysis in-the-wild (ABAW) Expression challenge, we propose a multimodal framework that dynamically fuses visual and audio representations. Our approach uses a dual-branch Transformer architecture featuring a safe cross-attention mechanism and a modality dropout strategy. This design allows the network to rely on audio-based predictions when visual cues are absent. To mitigate the long-tail distribution of the Aff-Wild2 dataset, we apply focal loss optimization, combined with a sliding-window soft voting strategy to capture dynamic emotional transitions and reduce frame-level classification jitter. Experiments demonstrate that our framework effectively handles missing modalities and complex spatiotemporal dependencies, achieving an accuracy of 60.79% and an F1-score of 0.5029 on the Aff-Wild2 validation set.

연구 동기 및 목표

실내가 아닌 환경에서 안면 표정 인식의 occlusion 및 누락 모달리티 문제를 다룬다.
Aff-Wild2의 긴 꼬리 클래스 분포에 대한 로버스트함을 포컬 손실로 향상시킨다.
슬라이딩 윈도우 소프트 보팅으로 동적 시공간 의존성을 포착한다.
시각 정보가 없을 때 점진적인 악화로_audio-전용 예측으로의 우아한 degrade를 가능하게 한다.
Aff-Wild2에서 아키텍처 구성과 모달리티 기여를 평가한다.

제안 방법

BEiT-large를 이용한 시각 특징 추출과 WavLM-large를 이용한 오디오 특징 추출의 2단계 프로세스.
상호 모달 상호작용을 위한 크로스-어텐션과 학습 가능한 게이팅 융합 기제를 갖춘 이중 분기 Transformer.
훈련 중 모달리티 드롭아웃과 전체 시각 부재를 처리하기 위한 안전한 어텐션 메커니즘.
롱-테일 클래스 불균형을 완화하기 위한 포컬 로스, 손실에서 무효 프레임은 무시.
오버랩되는 슬라이딩 윈도우와 로짓 기반 소프트 보팅으로 추론을 수행하고, 시계열 스무딩을 위한 중앙값 필터링을 적용.

실험 결과

연구 질문

RQ1비제약적 얼굴 표정 인식에서 누락된 모달리티에 대해 다중 모달 융합을 어떻게 강건하게 만들 수 있는가?
RQ2모달리티 드롭아웃과 안전한 크로스-어텐션이 가려짐이나 시각 드롭아웃 하에서 성능을 향상시키는가?
RQ3Aff-Wild2에서 포컬 손실과 슬라이딩 윈도우 추론이 긴 꼬리 문제와 시간적 지터를 완화하는가?
RQ4실외 환경에서 표현 인식에 있어 시각 대 오디오 모달리티의 상대적 기여도는 어느 정도인가?
RQ5Aff-Wild2에서 성능과 일반화 사이의 균형을 맞추는 아키텍처 구성은 무엇인가?

주요 결과

프레임워크가 Aff-Wild2 검증 세트에서 60.79% 정확도와 0.5029 F1을 달성한다.
시각 특징이 지배적 모달리티이지만, 오디오가 보완적 신호를 제공하여 융합 성능을 향상시킨다.
모달리티 드롭아웃(p = 0.10)은 강건성과 내결함성을 향상시키며, 더 높은 p는 성능을 악화시킨다.
안전한 크로스-어텐션은 시각이 없을 때 오디오 전용 예측으로의 우아한 degrade를 가능하게 한다.
슬라이딩 윈도우 소프트 보팅과 중앙값 필터링은 프레임 수준의 지터를 줄이고 감정 변화들을 포착한다.
BEiT-large 시각 백본은 테스트한 백본들 중 최상의 검증 성능을 보이며(BEiT-large: Acc 0.5421, F1 0.4268).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.