[논문 리뷰] Explainable Multimodal Emotion Recognition
이 논문은 Explainable Multimodal Emotion Reasoning (EMER)를 소개합니다. 설명과 함께 감정을 예측하는 과제, 새로운 데이터셋, 다중 모달 LLM의 기준선, 평가 지표, 그리고 감정 컴퓨팅을 위한 다중 모달 LLM인 AffectGPT를 제시합니다.
Multimodal emotion recognition is an important research topic in artificial intelligence, whose main goal is to integrate multimodal clues to identify human emotional states. Current works generally assume accurate labels for benchmark datasets and focus on developing more effective architectures. However, emotion annotation relies on subjective judgment. To obtain more reliable labels, existing datasets usually restrict the label space to some basic categories, then hire plenty of annotators and use majority voting to select the most likely label. However, this process may result in some correct but non-candidate or non-majority labels being ignored. To ensure reliability without ignoring subtle emotions, we propose a new task called ``Explainable Multimodal Emotion Recognition (EMER)''. Unlike traditional emotion recognition, EMER takes a step further by providing explanations for these predictions. Through this task, we can extract relatively reliable labels since each label has a certain basis. Meanwhile, we borrow large language models (LLMs) to disambiguate unimodal clues and generate more complete multimodal explanations. From them, we can extract richer emotions in an open-vocabulary manner. This paper presents our initial attempt at this task, including introducing a new dataset, establishing baselines, and defining evaluation metrics. In addition, EMER can serve as a benchmark task to evaluate the audio-video-text understanding performance of multimodal LLMs.
연구 동기 및 목표
- 다중 모달 감정 인식에서 주관적 감정으로 인한 라벨 불확실성 해결.
- 예측된 감정에 대한 설명을 제공하는 EMER 도입.
- 초기 EMER 데이터셋과 평가 지표를 갖춘 기본 모델 개발.
- EMER를 다루기 위한 다중 모달 LLM인 AffectGPT 제안.
- 다중 모달 LLM에서 오디오-비디오-텍스트 이해를 평가하기 위한 기초 제공.
제안 방법
- EMER를 감정 예측 뒤에 타당한 추론이 필요하다는 과제 정의.
- MER2023으로부터 단서와 감정 주석이 있는 초기 EMER 데이터셠 구성.
- 비디오 입력이 가능한 다중 모달 LLM(S) 기반의 베이스라인 개발: VideoChat, Video-LLaMA, PandaGPT, Valley 그대로.
- 자막과 오디오를 프롬프트에 포함시켜 다중 모달 추론 평가.
- 단서와 감정 중복 및 추론의 완전성에 대한 자동(ChatGPT 기반) 평가와 인간 평가로 예측 평가.
- EMER 데이터로 훈련된 다중 모달 LLM인 AffectGPT 도입.
실험 결과
연구 질문
- RQ1EMER가 설명 가능한 추론을 통해 감정 라벨의 주석 품질과 신뢰성을 향상시킬 수 있는가?
- RQ2시각, 청각, 텍스트 모달리티에 걸쳐 설명 가능한 감정 추론에서 현재의 다중 모달 LLM은 얼마나 잘 작동하는가?
- RQ3EMER 데이터로의 지시사항 미세조정이 LLM의 감정 추론 및 다중 모달 이해를 향상시키는가?
- RQ4EMER 태스크를 위한 전용 다중 모달 정서 모델(AffectGPT)의 추가 가치는 무엇인가?
주요 결과
- 현재의 다중 모달 LLM은 감정 추론에서 어려움을 겪고 있으며 단서와 라벨 중복에서 ground truth와의 차이가 크게 나타난다.
- AffectGPT가 단서 및 라벨 중복 및 인간 평가에서 베이스라인 중 최고 점수를 달성한다.
- 여러 베이스라인의 앙상블은 단일 모델보다 감정 추론 성능을 향상시킬 수 있다.
- 더 긴 비디오일수록 감정 관련 설명이 풍부하고 모달리티의 완전성이 높아지는 경향이 있다.
- 비디오 중심의 베이스라인은 종종 오디오 단서를 간과하므로 더 풍부한 오디오 지시 데이터세트의 필요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.