[논문 리뷰] The Emotional Voices Database: Towards Controlling the Emotion Dimension in Voice Generation Systems
이 논문은 음성 합성 및 변환에서 컨트롤 가능한 감정 생성을 가능하게 하는 영어와 프랑스어를 포함한 다중 화자, 이중언어 감정 음성 데이터베이스를 오픈 소스로 소개한다; 신경망과 CMOS 테스트를 이용한 간단한 감정-중성 변환으로 데이터 세트를 검증한다.
In this paper, we present a database of emotional speech intended to be open-sourced and used for synthesis and generation purpose. It contains data for male and female actors in English and a male actor in French. The database covers 5 emotion classes so it could be suitable to build synthesis and voice transformation systems with the potential to control the emotional dimension in a continuous way. We show the data's efficiency by building a simple MLP system converting neutral to angry speech style and evaluate it via a CMOS perception test. Even though the system is a very simple one, the test show the efficiency of the data which is promising for future work.
연구 동기 및 목표
- 딥러닝 기반 합성 및 음성 변환에 적합한 오픈 소스 감정 음성 데이터셋을 제공한다.
- 교차 언어 감정 모델링을 지원하기 위해 여러 화자(양성 포함)와 언어(영어 및 프랑스어)를 포함한다.
- 연속적 감정 제어를 지원하기 위해 데이터를 차원적(Russell circumplex) 또는 기본 감정 프레임워크 내에 배치한다.
- 기준 음성 변환 실험 및 지각 평가를 통해 데이터셋의 활용성을 검증한다.
제안 방법
- CMU Arctic(영어) 및 SIWIS(프랑스어)의 음성학적으로 균형 잡힌 문장을 재사용하여 다국어 다중 화자 감정 음성 데이터베이스를 구성한다.
- 앰비언트가 없는 룸에서 44.1 kHz로 녹음하고 16 kHz로 다운샘플링한 16비트 PCM; 다섯 가지 감정(amused, anger, sleepiness, disgust, neutral)을 포함한다.
- 수동 분절 및 주석을 사용; 전사 및 음운 수준 주석 제공(아직 시간 정렬은 아님).
- Merlin 도구상에서 간단한 피드포워드 신경망(히든 레이어 6개, 각 1024 tanh 유닛)을 구성하여 대상 감정(분노)에 대한 중립-감정 음성 변환을 수행한다.
- WORLD 보코더 특성 및 DTW 정렬을 사용하여 화자별, 감정별 음성 변환 모델을 훈련한다.
- 지각적 실현성과 감정 인지도를 평가하기 위해 Comparative Mean Opinion Score(CMOS) 테스트 및 감정 분류 판단으로 평가한다.
실험 결과
연구 질문
- RQ1오픈 소스 다중 화자 감정 음성 데이터베이스가 감정 제어 음성 생성용 신경망 모델 학습을 지원할 수 있는가?
- RQ2기본 시스템에서 중립 음성을 변환할 때 분노 감정은 얼마나 인식 가능하고 제어 가능한가?
- RQ3중립을 포함한 제한된 감정 세트에서 정렬하고 변환하는 것이 지각적으로 타당한 감정 음성을 만들어내는가?
- RQ4데이터셋이 기존의 개방 자원과 어느 정도 통합되어 교차 언어 및 교차 화자 감정 모델링을 가능하게 하는가?
주요 결과
- 본 데이터베이스는 영어(여성 2명, 남성 2명)와 프랑스어(남성 1명)에서 다섯 가지 감정에 대한 데이터를 제공하며, 딥 러닝 기반 합성 및 음성 변환에 적합하다.
- 화자별로 학습된 간단한 DNN 기반 음성 변환은 중립-분노 변환을 효과적으로 보여주고, 지각 테스트에서 높은 감정 인식을 보인다.
- CMOS 결과는 분노한 음성이 일반적으로 중립보다 더 감정적으로 제대로 식별되며 화자에 따라 정확도가 다름을 보여준다.
- 지각 시험은 오분류의 대부분이 중립 음성이 졸림이나 즐거움으로 잘못 인식되는 것을 시사한다.
- 데이터와 방법론은 미래의 더 복잡한 합성 시스템(예: 어텐션 기반 또는 WaveNet 유사 아키텍처)에 대한 유망한 가능성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.