Skip to main content
QUICK REVIEW

[논문 리뷰] Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach

Elena Ryumina, Alexandr Axyonov|arXiv (Cornell University)|2026. 03. 13.
Emotion and Mood Recognition인용 수 0
한 줄 요약

논문은 프로토타입 확장 분류를 갖춘 네 모달리티(장면, 얼굴, 음향, 텍스트) 다중 모달 융합 방법을 제시하여 비디오 수준의 애매함/주저 인식을 달성하고, 앙상블을 통해 평균 MF1 83.25% 및 최종 테스트 MF1 71.43%를 달성합니다.

ABSTRACT

Ambivalence/hesitancy recognition in unconstrained videos is a challenging problem due to the subtle, multimodal, and context-dependent nature of this behavioral state. In this paper, a multimodal approach for video-level ambivalence/hesitancy recognition is presented for the 10th ABAW Competition. The proposed approach integrates four complementary modalities: scene, face, audio, and text. Scene dynamics are captured with a VideoMAE-based model, facial information is encoded through emotional frame-level embeddings aggregated by statistical pooling, acoustic representations are extracted with EmotionWav2Vec2.0 and processed by a Mamba-based temporal encoder, and linguistic cues are modeled using fine-tuned transformer-based text models. The resulting unimodal embeddings are further combined using multimodal fusion models, including prototype-augmented variants. Experiments on the BAH corpus demonstrate clear gains of multimodal fusion over all unimodal baselines. The best unimodal configuration achieved an average MF1 of 70.02%, whereas the best multimodal fusion model reached 83.25%. The highest final test performance, 71.43%, was obtained by an ensemble of five prototype-augmented fusion models. The obtained results highlight the importance of complementary multimodal cues and robust fusion strategies for ambivalence/hesitancy recognition.

연구 동기 및 목표

  • 무제한 영상에서의 애매함/주저 인식이라는 미묘하고 다중 모달인 행동 상태를 동기 부여하고 다룬다.
  • 융합을 위한 컴팩트한 단일 모달 임베딩을 학습하기 위한 네 모달리티 파이프라인(씬, 얼굴, 음향, 텍스트)을 개발한다.
  • 프로토타입 확장 목표를 사용한 트랜스포머 기반 융합을 탐구하여 모달리티 간 의존성을 모델링한다.
  • 다중 모달 융합이 BAH 코퍼스에서 단일 모달 기초선보다 우수함을 입증하고 앙상블을 통해 일반화의 강건성을 보인다.

제안 방법

  • VideoMAE 기반 시각 모델로 씬 다이나믹을 추출한다.
  • AffectNet으로 미세조정된 EfficientNetB0의 프레임 단위 감정 임베딩을 사용하고 통계적으로 풀링하여 MLP로 전달한다.
  • EmotionWav2Vec2.0으로 음향 감정 특징을 추출하고 Mamba 또는 Transformer 인코더로 시계열을 모델링한 뒤 풀링한다.
  • 전사록에 대해 트랜스포머 기반 텍스트 모델(EmotionDistilRoBERTa, EmotionTextClassifier 등)을 미세조정하여 밀집 텍스트 임베딩을 얻는다.
  • 모듈 토큰과 프로토타입 기반 분류 객체를 사용하는 트랜스포머 기반 다중 모달 모듈로 단일 모달 임베딩을 융합하고, 데이터 누락에 대한 모듀얼 마스크를 포함한다.
  • 각 모달리티의 인코더를 먼저 학습시키는 두 단계 시스템, 그 후 공유 잠재 융합을 학습하고, 필요 시 프로토타입 및 다양성 규제 손실을 추가한다.

실험 결과

연구 질문

  • RQ1씬, 얼굴, 음향, 텍스트의 보완적 신호를 활용함으로써 강건한 비디오 수준의 애매함/주저 인식을 달성할 수 있는가?
  • RQ2프로토타입 확장 융합이 표준 융합에 비해 구별력과 일반화를 향상시키는가?
  • RQ3각 모달리티가 최종 성능에 기여하는 바는 무엇이며 모달리티 융합은 단일 모달 기초선과 어떻게 비교되는가?
  • RQ4ABA W10 A/H 도전 과제의 미지의 비공개 테스트 데이터에 대해 앙상블 융합 성능이 강건한가?

주요 결과

Model ConfigurationBAH sub-corpusModalityFeaturesClassifierDevel. / Valid. (MF1, %)Test (MF1, %)Average (MF1, %)Final test (MF1, %)
Face1FaceEmotionEfficientNetB0 + Statistical FeaturesMLP65.2960.0562.67
Scene2SceneVideoMAELinear Layer61.7162.2161.96
Audio3AudioEmotionWav2Vec2.0 + MambaLinear Layer67.2070.8769.03
Text4TextTF-IDFLogistic Regression68.3067.7568.03
Text5TextTF-IDFCatBoost65.5672.0268.79
Text6TextFine-tuned EmotionTextClassifierMLP69.2870.7270.00
Text7TextFine-tuned EmotionDistilRoBERTaMLP68.5471.4970.02
Multimodal8Models IDs 1, 2, 3 and 4Multimodal Fusion ModelLinear Layer80.7977.0378.91
Multimodal9Models IDs 1, 2, 3 and 5Multimodal Fusion ModelLinear Layer77.9178.5478.22
Multimodal10Models IDs 1, 2, 3 and 6Multimodal Fusion ModelLinear Layer78.3577.0377.69
Multimodal11Models IDs 1, 2, 3 and 7Multimodal Fusion ModelLinear Layer85.3879.9482.6668.32
Multimodal12Models IDs 1, 2, 3 and 7Multimodal Fusion Model with Prototype HeadLinear Layer83.7982.7283.2565.21
Multimodal13Models IDs 1, 2, 3 and 7Ensemble of Five Multimodal Fusion ModelsLinear Layer81.9480.6481.2970.17
Multimodal14Models IDs 1, 2, 3 and 7Ensemble of Five Multimodal Fusion Models with Prototype HeadLinear Layer83.0080.7781.8971.43
  • 다중 모달 융합이 개발 및 테스트 설정 전반에서 모든 단일 모달 기초선을 능가한다.
  • 최고의 단일 모달 평균 MF1: EmotionDistilRoBERTa 70.02%; 최고의 융합 평균 MF1: 프로토타입 확장된 네 모달 모델 83.25%.
  • 최종 테스트 MF1 피크는 다섯 개의 프로토타입 확장 융합 모델의 앙상블로 달성: 71.43%
  • 절단 분석에서 씬과 텍스트를 결합하는 것이 가장 큰 이득을 주고, 네 가지 모달리티가 모두 결합될 때 최상의 총 결과를 제공한다.
  • 프로토타입 확장 융합은 최종 예측을 향상시키는 보조 신호를 제공하며, 앙상블이 비공개 테스트 분할에서 일반화를 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.