QUICK REVIEW

[論文レビュー] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

RJ Skerry-Ryan, Eric Battenberg|arXiv (Cornell University)|Mar 24, 2018

Speech Recognition and Synthesis参考文献 22被引用数 219

ひとこと要約

論文は Tacotron を学習済みのリファレンス韻律エンコーダで拡張し、発話間および話者間で韻律を転送可能とするエンドツーエンドの韻律制御と転送を実現します。客観的および主観的指標を用いて、単一話者および複数話者の Tacotron モデルを評価します。

ABSTRACT

We present an extension to the Tacotron speech synthesis architecture that learns a latent embedding space of prosody, derived from a reference acoustic representation containing the desired prosody. We show that conditioning Tacotron on this learned embedding space results in synthesized audio that matches the prosody of the reference signal with fine time detail even when the reference and synthesis speakers are different. Additionally, we show that a reference prosody embedding can be used to synthesize text that is different from that of the reference utterance. We define several quantitative and subjective metrics for evaluating prosody transfer, and report results with accompanying audio samples from single-speaker and 44-speaker Tacotron models on a prosody transfer task.

研究の動機と目的

音響信号から潜在韻律表現を学習して、明示的なアノテーションなしに韻律のモデリングを動機づける。
Tacotron にリファレンスエンコーダを追加し韻律を捉え、発話間および話者間の転送を可能にする。
単一話者および多話者設定で定量指標と人間の評価でアプローチを評価する。
韻律埋め込みが話者アイデンティティと韻律転送品質にどう影響するかを調査する。

提案手法

Tacotron を条件付けるため、参照音響信号を固定長韻律埋め込み（dP=128、tanh活性化）に変換するリファレンスエンコーダを追加する。
6層の畳み込みリファレンスエンコーダの後にGRUを用いて固定長韻律埋め込みを得る。
テキスト表現、話者埋め込み、および韻律埋め込みを結合してTacotronデコーダを条件付ける。
明示的な韻律監督なしで、Tacotron再構成損失を用いてエンドツーエンドで学習し、コンパクトな韻律ボトルネックを獲得する。
追加のアテンションヘッドを備えたシーケンスベース（可変長）韻律表現をオプションで検討するが、主な結果は固定長埋め込みに焦点を当てる。

実験結果

リサーチクエスチョン

RQ1参照音声から抽出した学習済み韻律埋め込みは、Tacotron生成音声の韻律を再現・転送できるか。
RQ2学習済み韻律空間でTacotronを条件付けると、可聴性と話者アイデンティティを保ちながら跨話者の韻律転送が可能か。
RQ3韻律埋め込みのサイズと活性化が転送品質や参照から出力への情報フローにどう影響するか。

主な発見

Voice	Model	Reference	MCD 13	FFE	Subjective
Single-speaker	baseline	same speaker	10.63	53.2%
Single-speaker	tanh-128	same speaker	7.92	28.1%	1.611±0.164
Single-speaker	baseline	unseen speaker	11.22	59.6%
Single-speaker	tanh-128	unseen speaker	8.89	38.0%	1.465±0.132
Multi-speaker	baseline	same speaker	9.93	48.5%
Multi-speaker	tanh-128	same speaker	6.99	27.5%	1.307±0.127
Multi-speaker	baseline	seen speaker	12.37	64.2%
Multi-speaker	tanh-128	seen speaker	9.51	37.1%	0.871±0.138
Multi-speaker	baseline	unseen speaker	11.84	60.0%
Multi-speaker	tanh-128	unseen speaker	10.87	41.3%	1.146±0.246

韻律転送は、参照エンコーダなしのベースラインと比較して、単一および多話者のTacotronモデルの参照韻律への整合性を改善する。
客観的指標（MCDとFFE）は、テスト条件全体でリファレンスエンコーダを用いた方がベースラインより有意に低い。
主観的アンカーベースの韻律識別は、tanh-128ボトルネックを使用した場合、話者構成を問わず参照韻律との類似性がベースラインより高い。
参照話者がターゲットと異なる場合でも、未見の話者を含む話者間で韻律転送が可能で、ピッチとタイミングの忠実性に顕著な影響を与える。
ボトルネックサイズを大きくすると一般に韻律再現性（MCD、FFE）が向上する一方、softmaxボトルネックはtanhベースのボトルネックより劣る。
韻律と話者アイデンティティのエンタングルメントの証拠があり、参照韻律が時には知覚された話者特性を支配する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。