QUICK REVIEW

[論文レビュー] Emotional End-to-End Neural Speech Synthesizer

Younggun Lee, Azam Rabiee|arXiv (Cornell University)|Nov 15, 2017

Speech Recognition and Synthesis参考文献 8被引用数 58

ひとこと要約

この論文は、感情埋め込みと学習テクニックを用いて Tacotron を拡張し、感情的な音声を合成する。露出バイアスとアテンションの整列を改善して品質を向上させる。

ABSTRACT

In this paper, we introduce an emotional speech synthesizer based on the recent end-to-end neural model, named Tacotron. Despite its benefits, we found that the original Tacotron suffers from the exposure bias problem and irregularity of the attention alignment. Later, we address the problem by utilization of context vector and residual connection at recurrent neural networks (RNNs). Our experiments showed that the model could successfully train and generate speech for given emotion labels.

研究の動機と目的

Tacotron に基づく感情条件付きのエンドツーエンド TTS モデルを導入する。
露出バイアスとアテンションのずれを解消し、長フレームの音声生成を改善する。
学習された感情埋め込みを用いて、複数の事前定義された感情を持つ音声の生成を可能にする。

提案手法

Tacotron のアテンションとデコーダRNNに学習された感情埋め込みを注入する。
デコード時に単調アテンションを適用して単調な整列を強制する。
デコーダ入力として実データフレームと予測フレームを混ぜたセミ・ティーチャーフォース訓練を用いる。
アテンションRNNの入力に文脈ベクトル c_{t-1} を組み込み、整列を導く。
現在ステップの情報を保持し整列を鋭くするために CBHG テキストエンコーダに残差接続を追加する。

実験結果

リサーチクエスチョン

RQ1Tacotron に統合された感情埋め込みは、感情的な語り口の音声を生成できるか？
RQ2単調アテンションの強制とセミ・ティーチャーフォース訓練は、アテンションの整列と音声品質を改善するか？
RQ3文脈ベクトルと CBHG 残差接続は、感情 TTS の整列安定性と可聴性を改善するか？

主な発見

感情的 Tacotron は、指定された感情ラベルを含む音声を生成できる。
単調アテンションは、元の Tacotron よりもよりきれいで安定したアテンション整列を生む。
セミ・ティーチャーフォース訓練は露出バイアスの緩和と誤差蓄積の低減に寄与する。
文脈ベクトルと残差 CBHG 接続の組み込みにより、より鋭く、信頼性の高いアテンション整列を得られる。
本モデルは、韓国語データセットで6つの感情カテゴリと約21時間の音声（テキスト、音声、感情ラベル）で訓練された。
著者は、アテンション整列の鮮明さと音声品質の相関を観察し、生成音声の定性的結果と GitHub のリソースを提供した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。