QUICK REVIEW

[論文レビュー] The Emotional Voices Database: Towards Controlling the Emotion Dimension in Voice Generation Systems

Adaeze Adigwe, Noé Tits|arXiv (Cornell University)|Jun 25, 2018

Speech Recognition and Synthesis参考文献 18被引用数 51

ひとこと要約

この論文は、音声合成と変換における感情制御可能な生成を実現することを目的とした、オープンソースの多話者・バイリンガル感情音声データベース（英語と仏語）を紹介します。データセットは、ニューラルネットワークとCMOS評価を用いた単純な感情-中性変換で検証されます。

ABSTRACT

In this paper, we present a database of emotional speech intended to be open-sourced and used for synthesis and generation purpose. It contains data for male and female actors in English and a male actor in French. The database covers 5 emotion classes so it could be suitable to build synthesis and voice transformation systems with the potential to control the emotional dimension in a continuous way. We show the data's efficiency by building a simple MLP system converting neutral to angry speech style and evaluate it via a CMOS perception test. Even though the system is a very simple one, the test show the efficiency of the data which is promising for future work.

研究の動機と目的

深層学習ベースの合成と音声変換に適したオープンソースの感情音声データセットを提供する。
複数の話者（男女両方）と言語（英語と仏語）をカバーし、跨言語の感情モデリングを支援する。
データを次元的（Russell circumplex）または基本感情の枠組みに配置することで、連続的な感情制御をサポートする。
ベースラインの音声変換実験と知覚評価を通じてデータセットの有用性を検証する。

提案手法

CMU Arctic (English) and SIWIS (French) の音素バランスの取れた文を再利用して、 multilingual・multi-speaker の感情音声データベースを構築する。
44.1 kHz の録音を16 kHz にダウンサンプリング、16-bit PCM、回折のない部屋で録音; five emotions (amused, anger, sleepiness, disgust, neutral) を含める。
手動でのセグメンテーションと注釈を使用; 字起こしと音素レベルの注釈を提供（まだ時間揃えはされていない）。
Merlin toolkit 内で、ターゲット感情（anger）に対する中性-to-感情的な音声変換を行う、簡単な feedforward ニューロンネットワーク（6つの隠れ層、それぞれ1024 tanh ユニット）を構築する。
WORLD vocoder の特徴量と DTW アライメントを用いて、話者ごと・感情ごとに音声変換モデルを訓練する。
知覚的現実感と感情識別性を評価するため、Comparative Mean Opinion Score (CMOS) テストと感情分類判断で評価する。

実験結果

リサーチクエスチョン

RQ1オープンソースの多話者感情音声データベースは、感情制御音声生成のニューラルモデル訓練を支援できるか。
RQ2基準系統で中性話法を変換した際、怒り感情の認識性と制御性はどの程度か。
RQ3中性を含む制約された感情集合内での整列と変換は、知覚的に有効な感情音声を生み出すか。
RQ4本データセットは既存のオープンリソースとどの程度統合可能で、跨言語・跨話者の感情モデリングを可能にするか。

主な発見

このデータベースは英語（女性2名・男性2名）と仏語（男性1名）で5つの感情のデータを提供し、深層学習ベースの合成と音声変換に適している。
話者ごとに訓練された単純なDNNベースの音声変換は、中性→怒りの変換を効果的に示し、知覚テストで高い感情認識性を示す。
CMOSの結果は、怒りの音声が一般に中性よりも感情的と正しく認識されることを示し、話者によって正確性が異なる。
知覚テストは、誤分類の大半が中性話法がsleepinessまたはamusementとして認識されることに関係しており、怒りよりはそうなる。
本データと方法論は、将来のより複雑な合成システム（例: attention ベース、WaveNet風アーキテクチャ）に有望な可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。