QUICK REVIEW

[論文レビュー] Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

Yu Zhang, Ron J. Weiss|arXiv (Cornell University)|Jul 9, 2019

Speech Recognition and Synthesis参考文献 28被引用数 26

ひとこと要約

本稿では、Tacotron 2に基づく多言語テキスト音声合成モデルを提案し、二か国語のデータを必要とせずに、複数の言語で高品質でなめらかな音声合成および異言語間ボイスクラーニング（話者の声を一つの言語から別の言語に移転）を可能にする。音声の発音表記（音素）入力表現と話者対抗損失を用いることで、話者アイデンティティと言語を分離し、英語と中国語のような関係の遠い言語間でも、ほぼ母音に近い自然さと高い声の類似度を達成する。

ABSTRACT

We present a multispeaker, multilingual text-to-speech (TTS) synthesis model based on Tacotron that is able to produce high quality speech in multiple languages. Moreover, the model is able to transfer voices across languages, e.g. synthesize fluent Spanish speech using an English speaker's voice, without training on any bilingual or parallel examples. Such transfer works across distantly related languages, e.g. English and Mandarin. Critical to achieving this result are: 1. using a phonemic input representation to encourage sharing of model capacity across languages, and 2. incorporating an adversarial loss term to encourage the model to disentangle its representation of speaker identity (which is perfectly correlated with language in the training data) from the speech content. Further scaling up the model by training on multiple speakers of each language, and incorporating an autoencoding input to help stabilize attention during training, results in a model which can be used to consistently synthesize intelligible speech for training speakers in all languages seen during training, and in native or foreign accents.

研究の動機と目的

二か国語のデータを一切必要とせず、単一言語の学習データのみで高品質な多言語TTS合成を実現すること。
訓練データにおいて話者アイデンティティと言語が完全に相関している状況下でも、話者の声を外国語に移転する異言語間ボイスクラーニングを達成すること。
エンドツーエンドTTSで話者アイデンティティと言語表現を分離し、発音と声の特性を独立して制御可能にすること。
変分自己オートエンコーダー風の残差エンコーダーを用いて、多言語環境におけるモデルの安定性とアテンションの整合性を向上させること。
入力表現の種別（表記文字、バイト、音素）が多言語TTS性能およびボイスクラーニング品質に与える影響を評価すること。

提案手法

言語間の発音知識共有を促進し、言語間での一般化を向上させるために、音素ベースの入力表現を採用する。
話者対抗損失を導入し、話者アイデンティティを言語から分離することで、話者に依存しない表現を学習させる。
合成時に言語および話者埋め込みを明示的に条件付けすることで、発音と声のアイデンティティを独立して制御可能にする。
訓練中にターゲットスペクトログラムから得られる潜在表現を条件としてデコーダーに供給することで、アテンションの安定化を図る、変分自己オートエンコーダー風の残差エンコーダーを採用する。
言語固有のコンponentを一切含まず、全言語に共通する統一アーキテクチャを用いて、1段階で学習を実行する。
予測されたスペクトログラムから高精細波形を生成するために、別途WaveRNN音声生成器を訓練する。

実験結果

リサーチクエスチョン

RQ1二か国語の学習データが一切ない状況下でも、多言語TTSモデルが話者の声を外国語に移転できるか？
RQ2入力表現の選択（表記文字、バイト、音素）が異言語間ボイスクラーニングおよび音声の自然さに与える影響は？
RQ3対抗学習が、単一言語話者のみを用いた多言語TTSモデルにおいて、話者アイデンティティと言語を効果的に分離できるか？
RQ4言語埋め込みが、声の類似度を損なわせることなく、発音の制御的移転をどの程度可能にするか？
RQ5残差エンコーダーを組み込むことで、多言語TTSにおけるアテンションの安定性と音声品質が向上するか？

主な発見

音素ベースの入力表現が、最も高い自然さと最小の発音ミスを達成し、評価者のコメントから外国語でもなめらかで母音に近い発音が確認された。
話者対抗損失により、異言語間ボイスクラーニングが成功し、英語→スペイン語および英語→中国語の移転においても、類似度MOSが4.0を超える結果が得られ、関係の遠い言語間でも有効であった。
話者および言語埋め込みを含む完全なモデルを用いることで、全言語ペアにおいてボイスクラーニングの自然さMOSが3.85以上を維持し、強力な一般化性能を示した。
英語→英語合成では自然さMOS > 4.3、英語→スペイン語では類似度MOS > 4.2を達成し、実測値に近い性能を示した。
変分残差エンコーダーを削除すると、英語→中国語のクラーニングで自然さが0.4MOSポイント低下し、アテンションの安定化と単語省略・不自然な間の防止において、このモジュールが極めて重要であることが示された。
話者埋め込みの可視化結果から、一致する言語と話者アイデンティティのクラスタが密に集まっている一方で、不一致する言語埋め込みでは発音の変化が確認され、分離の有効性が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。