Skip to main content
QUICK REVIEW

[논문 리뷰] Improving Automatic Emotion Recognition from speech using Rhythm and Temporal feature

Mayank Bhargava, Tim Polzehl|arXiv (Cornell University)|2013. 03. 07.
Emotion and Mood Recognition참고 문헌 18인용 수 30
한 줄 요약

이 논문은 전통적인 특징들인 MFCC, 피치, 에너지 외에도 음성 분석에서 유도된 리듬 및 시간적 특징을 통합함으로써 음성 기반 정서 인식의 성능을 향상시킨다. 발성, 비발성, 침묵 영역을 분할하여 추출하고, 특징 선택에 IGR 필터를 적용함으로써 베를린 정서 데이터베이스에서 화자 종속 설정에서 80.60%의 정확도를 달성한다. 이는 리듬 및 시간적 단서가 정서 인식 시스템에 있어 가치가 있음을 시사한다.

ABSTRACT

This paper is devoted to improve automatic emotion recognition from speech by incorporating rhythm and temporal features. Research on automatic emotion recognition so far has mostly been based on applying features like MFCCs, pitch and energy or intensity. The idea focuses on borrowing rhythm features from linguistic and phonetic analysis and applying them to the speech signal on the basis of acoustic knowledge only. In addition to this we exploit a set of temporal and loudness features. A segmentation unit is employed in starting to separate the voiced/unvoiced and silence parts and features are explored on different segments. Thereafter different classifiers are used for classification. After selecting the top features using an IGR filter we are able to achieve a recognition rate of 80.60 % on the Berlin Emotion Database for the speaker dependent framework.

연구 동기 및 목표

  • 기존의 음성 특징 외에 리듬 및 시간적 특징을 도입함으로써 음성에서의 자동 정서 인식 성능을 향상시키는 것.
  • 언어학적 및 언어적 리듬 특징이 음성 신호에 적용될 수 있는지, 오직 음성 지식만을 사용하여 탐색하는 것.
  • 발성, 비발성, 침묵 영역으로 음성을 분할하여 분류 성능 향상을 위한 맥락 기반 특징을 추출하는 것.
  • 정보 양식 비율(IGR) 필터를 사용한 특징 선택 이후 여러 분류기의 성능을 평가하는 것.
  • 하이브리드 특징 집합을 사용하여 화자 종속 정서 인식 프레임워크에서 더 높은 인식 정확도를 달성하는 것.

제안 방법

  • 음성 신호가 발성/비발성 활동 탐지 기반으로 발성, 비발성, 침묵 영역으로 분할된다.
  • 리듬 특징은 언어학적 및 음성학적 원칙에 기반하여 언어학적 번역 없이 음성 신호에 적응하여 추출된다.
  • 시간적 및 음량 특징은 분할된 영역에서 계산되어 음성의 동적 변화를 포착한다.
  • 가장 구분 능력이 뛰어난 특징을 식별하기 위해 정보 양식 비율(IGR) 필터를 사용한 특징 선택 절차가 적용된다.
  • 다양한 분류기가 선택된 특징 집합에서 훈련되고 평가되어 최적의 성능를 도출한다.
  • 최종 인식 정확도는 화자 종속 평가 프rotocol 하에 베를린 정서 데이터베이스에서 측정된다.

실험 결과

연구 질문

  • RQ1순수하게 음성 신호에서 추출된 리듬 및 시간적 특징이 정서 인식 성능 향상에 기여하는가?
  • RQ2언어 분석에서 유도된 리듬 특징이 텍스트 번역 없이 순수한 음성 신호에 적용되었을 때 성능는 어떠한가?
  • RQ3발성, 비발성, 침묵 영역으로 음성을 분할하는 것이 특징 표현 및 분류 정확도에 어떤 영향을 미치는가?
  • RQ4기존 특징들과 결합되었을 때 시간적 및 음량 특징이 정서 인식에 얼마나 기여하는가?
  • RQ5화자 종속 설정에서 가장 높은 인식 정확도를 달성하는 특징 조합과 분류기 조합은 무엇인가?

주요 결과

  • 리듬 및 시간적 특징의 통합은 MFCC 및 피치와 같은 표준 특징 외에도 정서 인식 성능 향상에 중대한 기여를 한다.
  • 발성, 비발성, 침묵 영역으로의 분할은 더 맥락 인식 능력 있는 특징 추출을 가능하게 하여 모델의 구분 능력을 향상시킨다.
  • 정보 양식 비율(IGR) 필터는 가장 관련성이 높은 특징을 성공적으로 식별하여 간소화되고 효과적인 특징 집합을 도출하였다.
  • 제안된 방법은 화자 종속 프레임워크에서 베를린 정서 데이터베이스에서 80.60%의 인식 정확도를 달성하였으며, 기준 기반 접근 방식을 초월하였다.
  • 시간적 및 음량 특징은 리듬 단서와 함께 통합되었을 때 분류에 의미 있는 기여를 하였다.
  • 결과적으로 음성 신호에서만 유도된 리듬 기반 특징이 정서 인식 시스템에서 효과적으로 기능할 수 있음을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.