QUICK REVIEW

[논문 리뷰] Characterizing Types of Convolution in Deep Convolutional Recurrent Neural Networks for Robust Speech Emotion Recognition

Che-Wei Huang, Shrikanth Narayanan|arXiv (Cornell University)|2017. 06. 07.

Speech Recognition and Synthesis참고 문헌 48인용 수 25

한 줄 요약

이 논문은 음성 감정 인식을 위한 딥 컨volutional 리current 신경망에서 스펙트럼 전용, 시간 전용, 스펙트럼-시간, 전체 스펙트럼 시간 컨볼루션의 네 가지 유형의 컨볼루션 연산을 조사한다. 실험 결과, 전체 스펙트럼 시간 컨볼루션(FST-Conv)이 노이즈가 있는 조건과 청결한 조건에서 가장 뛰어난 성능을 보이며, 다른 유형보다도 더 우수한 성능을 보이는 이유는 감정 정보를 유지하면서도 말하기자와 성별 차이와 같은 관련 없는 변동성을 억제할 수 있기 때문이다.

ABSTRACT

Deep convolutional neural networks are being actively investigated in a wide range of speech and audio processing applications including speech recognition, audio event detection and computational paralinguistics, owing to their ability to reduce factors of variations, for learning from speech. However, studies have suggested to favor a certain type of convolutional operations when building a deep convolutional neural network for speech applications although there has been promising results using different types of convolutional operations. In this work, we study four types of convolutional operations on different input features for speech emotion recognition under noisy and clean conditions in order to derive a comprehensive understanding. Since affective behavioral information has been shown to reflect temporally varying of mental state and convolutional operation are applied locally in time, all deep neural networks share a deep recurrent sub-network architecture for further temporal modeling. We present detailed quantitative module-wise performance analysis to gain insights into information flows within the proposed architectures. In particular, we demonstrate the interplay of affective information and the other irrelevant information during the progression from one module to another. Finally we show that all of our deep neural networks provide state-of-the-art performance on the eNTERFACE'05 corpus.

연구 동기 및 목표

노이즈가 있는 조건과 청결한 조건에서 다양한 컨볼루션 유형이 음성 감정 인식 성능에 미치는 영향을 체계적으로 평가하는 것.
각 컨볼루션 유형이 표현 학습 과정에서 관련 없는 변동성(예: 말하기자, 성별, 노이즈)을 어떻게 다루는지 이해하는 것.
이중 방향 LSTMs를 통한 시간 모델링이 음성 신호에서 감정 정보 추출을 향상시키는 데 기여하는 방식을 분석하는 것.
SVM 기반 분석을 통해 각 네트워크 모듈(CNN, BLSTM, MLP)이 분류 능력에 기여하는 정도를 정량화하는 것.
네트워크 깊이에 따라 감정적 요소와 비감정적 요소가 어떻게 정보 흐름이 이루어지고 분리되는지에 대한 통찰을 제공하는 것.

제안 방법

모든 모델에서 공유된 이중 방향 LSTMs(BLSTM) 레이어를 사용하여 시간 모델링을 수행하는 딥 컨volution럴 리커런트 신경망(DC-RNN) 아키텍처를 제안한다.
입력 특징(예: 로그-멜 스펙트로그램, MFCC)에 대해 네 가지 다른 컨볼루션 유형을 적용한다: 스펙트럼 전용(S-Conv), 시간 전용(T-Conv), 스펙트럼-시간(ST-Conv), 전체 스펙트럼 시간(FST-Conv).
모든 특징 학습과 감정 분류를 동시에 최적화하기 위해 백프로파게이션을 사용하여 전체 모델을 엔드 투 엔드로 훈련한다.
각 네트워크 단계에서 분류 능력을 정량적으로 평가하기 위해 모듈 단위의 SVM 분류를 수행한다.
활성화 분석을 통해 네트워크 레이어 전반에서 감정, 말하기자, 성별 정보의 진화 과정을 시각화한다.
로지-멜과 MFCC를 사용한 모델 간의 비교를 통해 특징 표현과 변환(예: DCT)이 성능에 미치는 영향을 분리하기 위해 아블레이션 연구를 수행한다.

실험 결과

연구 질문

RQ1스펙트럼, 시간, 스펙트럼-시간, 전체 스펙트럼 시간 컨볼루션 유형이 노이즈가 있는 조건과 청결한 조건에서 음성 감정 인식 성능에 어떻게 영향을 미치는가?
RQ2어느 컨볼루션 유형이 노이즈에 가장 강건한가? 그 강건성의 근본적인 이유는 무엇인가?
RQ3CNN, BLSTM, MLP 모듈이 네트워크 내 감정 표현의 정교화에 기여하는 정도는 어느 정도인가?
RQ4말하기자, 성별과 같은 비관련 요소들이 네트워크 깊이에 따라 어떻게 진화하고 억제되는가?
RQ5DCT 기반의 MFCC 표현이 널리 사용되지만 일부 아키텍처에서는 로그-멜 특징보다 성능이 열 劣하는 이유는 무엇인가?

주요 결과

전체 스펙트럼 시간 컨볼루션(FST-Conv)은 청결한 조건과 노이즈가 있는 조건에서 모두 다른 모든 컨볼루션 유형보다 뛰어난 성능을 보이며, eNTERFACE’05 코퍼스에서 최신 기술 수준의 성능을 달성한다.
스펙트럼 전용 컨볼루션(S-Conv)은 노이즈에 가장 민감하며, 스펙트럼 정보가 부족하고 노이즈에 대한 강건성이 떨어지기 때문에 성능 저하가 발생한다.
CNN 모듈이 분류 능력 향상에 가장 큰 기여를 한다(27.43% ± 5.18%), 이어 BLSTM 모듈(35.63% ± 3.61%), 그리고 MLP 모듈은 더 작은 기여이지만 의미 있는 기여를 한다(2.85% ± 2.32%).
말하기자, 성별 정보와 같은 비관련 요소들이 네트워크 전반에서 점차 억제되며, MLP 모듈에서 이러한 변동성이 크게 감소함을 통해 감정적 콘텐츠의 효과적인 분리가 이루어지고 있음을 시사한다.
S-CLDNN(로그-멜)과 LDNN(MFCC) 간의 성능 격차는 DCT가 감정 정보를 유지하고 말하기자 및 성별 변동성에서 이를 분리하는 데 한계가 있기 때문이다.
시간 컨볼루션과 이중 방향 LSTMs의 반복은 상호 보완적인 이점을 제공하며, 이들의 조합이 가장 강건한 모델(FST-CLDNN)을 만들어내어, 노이즈 환경에서 스펙트럼-시간 동시 모델링의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.