Skip to main content
QUICK REVIEW

[논문 리뷰] Multimodal Utterance-level Affect Analysis using Visual, Audio and Text Features

Didan Deng, Yuqian Zhou|arXiv (Cornell University)|2018. 05. 02.
Emotion and Mood Recognition참고 문헌 23인용 수 32
한 줄 요약

이 논문은 시각, 청각 및 텍스트 특징을 조기 융합하는 다중모odal 딥러닝 모델을 제안하여 발화 수준의 정서 인식 성능을 향상시킨다. 시각적 특징에서 시간적 모델링을 위해 LSTM을 활용하고 청각 및 텍스트 표현과 융합함으로써, OMG-Emotion 데이터셋에서 각각 각성도에 대해 0.400, 정서도에 대해 0.353의 공명상관계수(CCC)를 달성하며, 단모달 기반 모델들을 능가한다.

ABSTRACT

The integration of information across multiple modalities and across time is a promising way to enhance the emotion recognition performance of affective systems. Much previous work has focused on instantaneous emotion recognition. The 2018 One-Minute Gradual-Emotion Recognition (OMG-Emotion) challenge, which was held in conjunction with the IEEE World Congress on Computational Intelligence, encouraged participants to address long-term emotion recognition by integrating cues from multiple modalities, including facial expression, audio and language. Intuitively, a multi-modal inference network should be able to leverage information from each modality and their correlations to improve recognition over that achievable by a single modality network. We describe here a multi-modal neural architecture that integrates visual information over time using an LSTM, and combines it with utterance level audio and text cues to recognize human sentiment from multimodal clips. Our model outperforms the unimodal baseline, achieving the concordance correlation coefficients (CCC) of 0.400 on the arousal task, and 0.353 on the valence task.

연구 동기 및 목표

  • 시각, 청각 및 텍스트 모odal을 통합하여 장기적이고 발화 수준의 정서 인식 성능을 향상시키기 위해.
  • 다중모달 정서 분석에서 조기 융합과 후기 융합 전략의 효과성을 조사하기 위해.
  • 지속적인 정서 회귀를 위한 시각적 및 청각적 특징에서 LSTM 기반 시간적 모델링의 영향을 평가하기 위해.
  • 단모달 성능과 다중모달 융합 성능를 비교하여 정서 예측 정확도 향상 여부를 평가하기 위해.
  • ASR 오류가 존재하는 상황에서 어휘 기반 텍스트 특징의 안정성과 순서 기반 NLP 모델 간의 영향을 분석하기 위해.

제안 방법

  • 시각적 특징는 VGG-Face와 OpenFace를 사용하여 추출되며, 이들의 연결(concatenation)을 통해 융합된 시각적 표현을 형성한다.
  • 청각적 특징는 0.5초 프레임 단위로 openSMILE를 사용하여 추출되며, 시간적 동적 특성을 모델링하기 위해 64개의 유닛을 가진 LSTM 레이어를 통과시킨다.
  • 텍스트적 특징는 감성 어휘 사전에서 유도되며, 데이터셋의 번역 오류로 인해 단어 임베딩이나 RNN에 의존하지 않도록 한다.
  • 조기 융합는 세 가지 단모달 표현을 연결하여 두 층의 완전 연결 네트워크에 입력하기 전에 적용된다.
  • 모델는 공명상관계수(CCC) 기반 손실 함수를 사용하여 공명상관계수 최적화를 위해 훈련되며, 조기 정지와 드롭아웃(0.5)을 통해 정규화된다.
  • 검증 세트에서 성능 향상을 위해 $1 - \rho_c$ 손실 함수를 사용한 미세조정(fine-tuning)이 수행된다.

실험 결과

연구 질문

  • RQ1조기 융합된 시각, 청각 및 텍스트 특징가 발화 수준의 정서 인식 성능을 후기 융합보다 높게 만들 수 있는가?
  • RQ2LSTM 기반 시간적 모델링이 시각적 및 청각적 특징에서 점진적인 정서 변화를 포착하는 데 얼마나 효과적인가?
  • RQ3왜 간단한 감성 어휘 사전 기반 특징가 GloVe나 LSTM 기반 모델보다 성능이 뛰어나게 되는가?
  • RQ4다중모달 융합이 OMG-Emotion 데이터셋에서 단모달 기반 모델 대비 정서 인식 성능을 크게 향상시킬 수 있는가?
  • RQ5지속적인 정서 회귀에서 손실 함수 선택(예: CCC 대 MSE)이 모델 성능에 미치는 영향은 무엇인가?

주요 결과

  • 제안된 다중모달 모델은 각성도 작업에서 0.400, 정서도 작업에서 0.353의 공명상관계수(CCC)를 달성하며, 모든 단모달 기반 모델들을 능가한다.
  • 조기 융합는 후기 융합보다 높은 성능을 보였으며, 각성도에 대해 CCC 0.386, 정서도에 대해 0.305를 기록한 반면, 후기 융합는 각각 0.311과 0.280이었다.
  • 미세조정을 통해 $1 - \rho_c$ 손실 함수를 사용함으로써 성능이 향상되었으며, 각성도의 CCC는 0.386에서 0.400으로, 정서도의 CCC는 0.305에서 0.353으로 상승하였다.
  • OpenFace 특징를 사용한 단모달 모델은 각성도에 대해 0.046, 정서도에 대해 0.080의 CCC를 기록하였으며, 융합된 시각적 특징(0.175 및 0.261)보다 유의미하게 낮았다.
  • LSTM 없이 구현된 청각 모델이 LSTM 기반 버전보다 성능이 뛰어나 각성도에 대해 0.273, 정서도에 대해 0.266의 CCC를 기록하여, 이 설정에서는 LSTM이 청각 모델링에 도움이 되지 않았다.
  • 텍스트 모odal에서 감성 어휘 사전이 가장 우수한 성능을 보였으며, 각성도에 대해 0.137, 정서도에 대해 0.259의 CCC를 기록하여, 단어 임베딩 및 LSTM 기반 모델보다 뛰어났다. 이는 ASR 오류에 대한 강건성 때문일 것이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.