QUICK REVIEW

[논문 리뷰] Video Sentiment Analysis with Bimodal Information-augmented Multi-Head Attention

Ting Wu, Junjie Peng|arXiv (Cornell University)|2021. 03. 03.

Emotion and Mood Recognition참고 문헌 66인용 수 119

한 줄 요약

이 논문은 영상 감성 분석을 위한 새로운 다중모달 융합 프레임워크인 Bimodal Information-augmented Multi-Head Attention (BIMHA)를 제안한다. 이는 텍스트, 시각, 청각 모달리티 간의 상호작용을 주로 어텐션 기반 메커니즘을 통해 모델링한다. 청각-시각, 청각-텍스트, 시각-텍스트 특징 쌍에 대해 동적 어텐션 가중치를 할당하고 잔차 구조를 통해 융합함으로써, 네 개의 공개 데이터셋에서 기존 방법들을 능가하는 최신 기술 성능을 기록하며 MOSI, MOSEI, IEMOCAP에서 최고 성능을 달성한다.

ABSTRACT

Humans express feelings or emotions via different channels. Take language as an example, it entails different sentiments under different visual-acoustic contexts. To precisely understand human intentions as well as reduce the misunderstandings caused by ambiguity and sarcasm, we should consider multimodal signals including textual, visual and acoustic signals. The crucial challenge is to fuse different modalities of features for sentiment analysis. To effectively fuse the information carried by different modalities and better predict the sentiments, we design a novel multi-head attention based fusion network, which is inspired by the observations that the interactions between any two pair-wise modalities are different and they do not equally contribute to the final sentiment prediction. By assigning the acoustic-visual, acoustic-textual and visual-textual features with reasonable attention and exploiting a residual structure, we attend to attain the significant features. We conduct extensive experiments on four public multimodal datasets including one in Chinese and three in English. The results show that our approach outperforms the existing methods and can explain the contributions of bimodal interaction in multiple modalities.

연구 동기 및 목표

다양한 모달리티 쌍이 감성 예측에 비균형적으로 기여하는 다중모달 감성 융합 문제를 해결하기 위해.
더 풍부한 특징 표현을 위해 내모달, 간모달, 이중모달 상호작용을 동시에 모델링하기 위해.
확장된 다중헤드 어텐션 메커니즘을 사용해 이중모달 상호작용에 대해 동적 가중치를 할당함으로써 감성 예측 성능을 향상시키기 위해.
각 이중모달 조합(AV, AT, VT)이 샘플별 감성 결정에 기여하는 방식을 실시간으로 시각화하여 설명 가능하게 하기 위해.

제안 방법

다중헤드 어텐션의 확장판인 이중모달 다중헤드 어텐션(BMHA)을 제안하며, 이는 다중모달 특징을 쿼리로, 이중모달 특징을 키와 밸류로 사용한다.
BMHA 적용 이전에 텐서 융합을 통해 이중모달 상호작용 특징을 생성하고, 동적 어텐션 가중치 할당을 수행한다.
잔차 연결을 사용하여 원본 간모달 특징를 유지하면서 어텐션 강화된 이중모달 특징와 융합한다.
청각-시각, 청각-텍스트, 시각-텍스트 상호작용을 위한 세 개의 병렬 MHA 헤드를 활용하며, 각각 모달리티 특화된 어텐션 패tern을 학습한다.
가중치가 할당된 이중모달 특징를 감성 추론 네트워크에 통합하여 최종 예측을 수행한다.
샘플별 어텐션 점수를 시각화하여 각 이중모달 쌍이 실시간 결정 과정에서 어떤 기여를 하는지 분석한다.

실험 결과

연구 질문

RQ1다양한 이중모달 상호작용(AV, AT, VT)이 영상 샘플별 감성 예측에 어떻게 다를 바 있어 기여하는가?
RQ2다중헤드 어텐션 메커니즘이 내모달 및 간모달 표현을 유지하면서도 이중모달 상호작용을 효과적으로 모델링할 수 있는가?
RQ3고정된 융합 전략에 비해 이중모달 특징 쌍에 대한 동적 어텐션 가중치 할당이 감성 분류 성능 향상에 기여하는가?
RQ4제안된 모델이 어텐션 시각화를 통해 예측을 얼마나 잘 설명할 수 있는가?
RQ5저자원 환경인 중국어 영상 감성 분석과 같은 다양한 다중모달 데이터셋에서 모델의 일반화 능력은 어느 정도인가?

주요 결과

CMU-MOSI 데이터셋에서 BIMHA는 최신 기술 성능을 기록하며, 테스트 정확도가 83.44% (Acc-2)이고 '부정/비부정' 분류에 대해 F1 스코어는 85.46%를 기록한다.
MOSEI 데이터셋에서 BIMHA는 '부정/긍정' 감성 분류에 대해 83.19% 정확도 (Acc-2)와 83.21% F1 스코어를 달성하며 기존 방법들을 능가한다.
IEMOCAP 데이터셋에서 BIMHA는 '행복' 클래스에 대해 86.57% 정확도와 85.8% F1 스코어를 기록하여 감정 카테고리 전반에서 뛰어난 성능을 보인다.
어텐션 시각화 결과, VT(시각-텍스트) 특징가 데이터셋 전반에서 가장 일관되게 기여하는 것으로 나타났으며, AV(청각-시각) 특징는 특정 샘플에서 지배적인 기여를 하였다.
비일치 데이터 학습을 도입함으로써 성능이 향상되어 Self-MM의 비일치 설정에서 53.87% Acc-2와 0.765 Corr를 기록하며 데이터 분포 변화에 대한 강건성을 입증하였다.
제거 실험 결과, 이중모달 어텐션을 통합함으로써 성능 향상이 뚜렷하게 나타났으며, BIMHA2(통합 어텐션)가 여러 지표에서 BIMHA1(일치)를 능가하는 것으로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.