QUICK REVIEW

[論文レビュー] DurIAN: Duration Informed Attention Network For Multimodal Synthesis

Chengzhu Yu, Heng Lu|arXiv (Cornell University)|Sep 4, 2019

Speech Recognition and Synthesis参考文献 31被引用数 94

ひとこと要約

DurIANは、時間長情報に基づく自己回帰型のテキスト音声合成フレームワークを提示し、エンドツーエンドのアテンションを時間長情報に基づくアライメントへ置換することで、頑健な音声と同期した表情を実現し、さらに推論を高速化するマルチバンド WaveRNNを提供する。

ABSTRACT

In this paper, we present a generic and robust multimodal synthesis system that produces highly natural speech and facial expression simultaneously. The key component of this system is the Duration Informed Attention Network (DurIAN), an autoregressive model in which the alignments between the input text and the output acoustic features are inferred from a duration model. This is different from the end-to-end attention mechanism used, and accounts for various unavoidable artifacts, in existing end-to-end speech synthesis systems such as Tacotron. Furthermore, DurIAN can be used to generate high quality facial expression which can be synchronized with generated speech with/without parallel speech and face data. To improve the efficiency of speech generation, we also propose a multi-band parallel generation strategy on top of the WaveRNN model. The proposed Multi-band WaveRNN effectively reduces the total computational complexity from 9.8 to 5.5 GFLOPS, and is able to generate audio that is 6 times faster than real time on a single CPU core. We show that DurIAN could generate highly natural speech that is on par with current state of the art end-to-end systems, while at the same time avoid word skipping/repeating errors in those systems. Finally, a simple yet effective approach for fine-grained control of expressiveness of speech and facial expression is introduced.

研究の動機と目的

エンドツーエンドのアテンションシステムに典型的なアーティファクトを回避し、頑健で自然な音声合成を動機づける。
時間長情報に基づくアライメントを用いて、音声と表情を協調させて同時に生成するマルチモーダル合成フレームワークを開発する。
韻律境界のエンコードをスキップし、スキップエンコーダを用いることで、ドメイン外テキストに対する頑健性を改善する。
ペアデータへの過度な依存を避け、音声と表情の細かな表現力制御を可能にする。

提案手法

Tacotron様系システムのエンドツーエンドのアテンションを、音素持続時間から導出された時間長情報に基づくアライメントモデルに置換する。
音素列と階層的韻律境界をエンコードするスキップエンコーダを用い、境界状態を最終エンコーダ出力から除外する。
予測された音素持続時間に駆動される状態展開機構を用いて、エンコーダ状態を音響フレームに合わせる。
持続時間に合わせてアラインされたエンコーダ状態に固定されたコンテンツベースの tanh アテンションを用いたデコーダと、残差用のポストネットを活用する。
音声をメルスペクトログラム、表情をモデル化されたパラメータとするマルチモーダル合成方式を導入し、時間長モデルまたはマルチタスク学習を通じて同期させる。
8ビット量子化とバンド分割サブサンプリングを備えたマルチバンド WaveRNN を提案し、音声生成を高速化しつつ品質を維持する。

実験結果

リサーチクエスチョン

RQ1時間長情報に基づくアライメントモデルは、エンドツーエンドのアテンションベースTTSシステムに匹敵する頑健性と自然さを提供できるか？
RQ2韻律境界情報は、特に中国語韻律に対するドメイン外テキストへの一般化をどう改善できるか？
RQ3学習済みスタイル埋め込みを操作して、教師ありラベルの下で細粒度のスタイル制御を達成できるか？
RQ4マルチバンド WaveRNN アプローチは、聴覚的音声品質を犠牲にすることなく推論を速められるか？
RQ5並列の音声-表情データを必要とせず、時間長情報に基づく機構で音声と表情を同期させることは可能か？

主な発見

DurIANは、MOSテストでTacotron-2と同等の自然さを達成しつつ、エンドツーエンドのアテンションシステムに共通する単語の飛躍・繰り返しのアーティファクトを回避する。
DurIANはTacotron-2より頑健性を示し、1000件の未知音声での単語飛ばし/繰り返しエラーが0%、ベースラインの1–2%に対して優れている。
8ビット量子化を用いたマルチバンド WaveRNN により、基準より推定2倍〜4倍高速化、CPU上でリアルタイムまたはそれ以上の生成を、品質低下なしに実現。
学習済みスタイル埋め込みをスケールさせることで、音素持続と音響生成の両方に影響を与える、表現力豊かな音声の細粒度のスタイル制御が可能。
時間長モデルベースの同期は、並列の音声-表情データを必要とせず、マルチモーダル合成（音声と表情）を可能にする一方、データが利用可能な場合には並列データの利用も許す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。