QUICK REVIEW

[논문 리뷰] Deep Learning based Emotion Recognition System Using Speech Features and Transcriptions

Suraj Tripathi, Abhay Kumar|arXiv (Cornell University)|2019. 06. 11.

Emotion and Mood Recognition참고 문헌 24인용 수 56

한 줄 요약

한 논문은 음성 특징 스펙트로그램, MFCC와 텍스트 전사 정보를 다양한 딥 뉴럴 네트워크 아키텍처와 결합한 감정 인식 방법을 제시하며 MFCC-Text CNN이 IEMOCAP 데이터에서 가장 높은 정확도를 달성한다.

ABSTRACT

This paper proposes a speech emotion recognition method based on speech features and speech transcriptions (text). Speech features such as Spectrogram and Mel-frequency Cepstral Coefficients (MFCC) help retain emotion-related low-level characteristics in speech whereas text helps capture semantic meaning, both of which help in different aspects of emotion detection. We experimented with several Deep Neural Network (DNN) architectures, which take in different combinations of speech features and text as inputs. The proposed network architectures achieve higher accuracies when compared to state-of-the-art methods on a benchmark dataset. The combined MFCC-Text Convolutional Neural Network (CNN) model proved to be the most accurate in recognizing emotions in IEMOCAP data.

연구 동기 및 목표

음성의 음향 특징과 전사로부터의 의미 정보를 모두 활용하여 감정 인식을 동기부여하고 개선한다.
다양한 음성 특징과 텍스트 입력의 조합이 인식 정확도에 어떤 영향을 미치는지 평가한다.
다중 모달 입력을 최대한 활용하는 네트워크 아키텍처를 식별한다.

제안 방법

저레벨 감정 신호를 보존하기 위해 스펙트로그램과 MFCC와 같은 음향 특징을 추출한다.
감정과 관련된 의미를 포착하기 위해 음성 전사를 도입한다.
다양한 특징 입력 조합을 취하는 여러 DNN 아키텍처를 실험한다.
IEMOCAP 벤치마크 데이터셋에서 학습하고 평가한다.
제안 모델을 최첨단 방법들과 비교한다.
MFCC-Text CNN이 결합 입력으로 최고 정확도를 산출함을 확인한다.

실험 결과

연구 질문

RQ1음성 특징과 전사를 결합하는 것이 두 모달리티 중 하나만을 사용하는 것보다 감정 인식 정확도를 향상시키는가?
RQ2음향 및 텍스트 정보를 가장 잘 융합하는 신경망 아키텍처는 무엇인가?
RQ3스펙트로그램과 MFCC 특징이 CNN/DNN 모델에서 텍스트 입력과 어떻게 상호 작용하는가?

주요 결과

실험에서 CNN으로 결합된 MFCC와 텍스트 입력이 IEMOCAP에서 가장 높은 정확도를 달성했다.
음성 특징은 저수준의 감정 단서를 보존하는 데 도움을 주고, 전사는 의미를 포착하여 더 나은 구분력을 제공한다.
제안된 네트워크가 벤치마크 데이터셋에서 최첨단 방법들을 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.