Skip to main content
QUICK REVIEW

[논문 리뷰] A breakthrough in Speech emotion recognition using Deep Retinal Convolution Neural Networks

Yafeng Niu, Dongsheng Zou|arXiv (Cornell University)|2017. 07. 12.
Emotion and Mood Recognition참고 문헌 4인용 수 37
한 줄 요약

이 논문은 시각적 망막과 볼록렌즈 영상 원리를 모방한 새로운 데이터 증강 기법을 활용하여 다양한 크기의 스펙트로그램을 생성함으로써 훈련 데이터의 다양성을 크게 높이는 딥 레티널 컨volution 신경망(DRCNNs)을 제안한다. 이 방법은 평균 정확도가 99%를 초과하여 이전의 접근 방식보다 정확도와 인식 가능한 감정 수 모두에서 뛰어나다.

ABSTRACT

Speech emotion recognition (SER) is to study the formation and change of speaker's emotional state from the speech signal perspective, so as to make the interaction between human and computer more intelligent. SER is a challenging task that has encountered the problem of less training data and low prediction accuracy. Here we propose a data augmentation algorithm based on the imaging principle of the retina and convex lens, to acquire the different sizes of spectrogram and increase the amount of training data by changing the distance between the spectrogram and the convex lens. Meanwhile, with the help of deep learning to get the high-level features, we propose the Deep Retinal Convolution Neural Networks (DRCNNs) for SER and achieve the average accuracy over 99%. The experimental results indicate that DRCNNs outperforms the previous studies in terms of both the number of emotions and the accuracy of recognition. Predictably, our results will dramatically improve human-computer interaction.

연구 동기 및 목표

  • 말 감정 인식(SER)에서 훈련 데이터가 부족한 문제를 해결하기 위해 새로운 데이터 증강 전략을 개발한다.
  • 망막 영상에서 영감을 받은 새로운 신경망 아키텍처를 설계하여 딥 러닝을 활용해 SER 정확도를 향상시킨다.
  • 말 신호의 다양한 감정 상태에서 높은 정확도로 인식을 가능하게 한다.
  • 광학 원리에 기반한 합성 데이터 생성을 통해 SER 모델의 강인성과 일반화 능력을 향상시킨다.

제안 방법

  • 망막과 볼록렌즈의 영상 원리를 기반으로 한 데이터 증강 알고리즘을 개발하여, 가상의 볼록렌즈와 스펙트로그램 간의 거리 변화를 시뮬레이션함으로써 다양한 크기의 스펙트로그램 표현을 생성한다.
  • 가상의 광학 시스템에서 초점 거리와 물체 거리를 변경하여 다양한 크기의 스펙트로그램을 생성함으로써 훈련 데이터의 다양성을 효과적으로 증가시킨다.
  • 증강된 스펙트로그램에서 고차원 특징을 추출하기 위해 새로운 딥 신경망 아키텍처인 딥 레티널 컨volution 신경망(DRCNNs)을 제안한다.
  • DRCNNs는 계층적인 특징 학습을 가능하게 하는 다중 컨볼루션 레이어를 활용하여 말 신호 내 복잡한 감정 패턴을 포착한다.
  • 모델은 증강된 스펙트로그램 데이터를 엔드 투 엔드로 훈련하여 감정 분류 최적화를 수행한다.
  • 네트워크 아키텍처는 망막 구조의 공간 처리 방식을 모방하여 특징 추출 효율성을 향상시킨다.

실험 결과

연구 질문

  • RQ1망막 영상 원리에 기반한 생물학적 영감을 받은 데이터 증강 기법이 말 감정 인식에서 데이터 다양성과 모델 일반화 능력을 향상시킬 수 있는가?
  • RQ2망막 구조에서 영감을 받은 새로운 딥 신경망 아키텍처가 기존 모델보다 더 높은 정확도를 달성할 수 있는가?
  • RQ3제안된 방법은 실제 훈련 데이터가 제한된 상황에서도 여러 감정 카테고리에서 높은 성능을 유지하는가?
  • RQ4광학 시뮬레이션 기반 데이터 증강이 모델의 강인성과 정확도 향상에 얼마나 기여하는가?

주요 결과

  • 제안된 DRCNN 모델은 말 감정 인식 작업에서 평균 정확도가 99%를 초과한다.
  • 망막 영상 원리에 기반한 데이터 증강 기법은 다양한 크기의 스펙트로그램 스케일을 생성함으로써 훈련 데이터셋의 효과적 크기를 증가시킨다.
  • DRCNN 모델은 이전의 최첨단 기법들보다 정확도와 감지 가능한 감정 클래스의 수 모두에서 뛰어난 성능을 보인다.
  • 망막에 영감을 받은 광학 시뮬레이션을 데이터 증강에 통합함으로써 모델의 일반화 능력과 강인성이 크게 향상된다.
  • 이 방법은 실제 훈련 데이터가 제한된 상황에서도 뛰어난 성능을 보이며, 저데이터 환경에서의 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.