QUICK REVIEW

[論文レビュー] Learning pronunciation from a foreign language in speech synthesis networks

Younggun Lee, Suwon Shon|arXiv (Cornell University)|Nov 23, 2018

Speech Recognition and Synthesis参考文献 15被引用数 24

ひとこと要約

本稿では、低リソース言語TTSの品質向上を目的として、言語間の発音類似性を活用する多言語音声合成フレームワークを提案する。高リソース言語データで事前学習し、低リソース言語データで微調整することで、言語間の共通する発音埋め込みを学習し、10言語にわたる一般化が図られ、合成品質が著しく向上する。

ABSTRACT

Although there are more than 6,500 languages in the world, the pronunciations of many phonemes sound similar across the languages. When people learn a foreign language, their pronunciation often reflects their native language's characteristics. This motivates us to investigate how the speech synthesis network learns the pronunciation from datasets from different languages. In this study, we are interested in analyzing and taking advantage of multilingual speech synthesis network. First, we train the speech synthesis network bilingually in English and Korean and analyze how the network learns the relations of phoneme pronunciation between the languages. Our experimental result shows that the learned phoneme embedding vectors are located closer if their pronunciations are similar across the languages. Consequently, the trained networks can synthesize the English speakers' Korean speech and vice versa. Using this result, we propose a training framework to utilize information from a different language. To be specific, we pre-train a speech synthesis network using datasets from both high-resource language and low-resource language, then we fine-tune the network using the low-resource language dataset. Finally, we conducted more simulations on 10 different languages to show it is generally extendable to other languages.

研究の動機と目的

多言語音声合成ネットワークが、言語間の発音類似性をどのように学習・表現しているかを調査すること。
十分な訓練データが得られない低リソース言語TTSの課題に対処すること。
高リソース言語データを活用して、共通する発音表現を通じて低リソース言語TTSを向上させる事前学習フレームワークを開発すること。
英語と韓国語を越える多様な言語ペアにおいて、提案手法の一般化能力を検証すること。

提案手法

英語と韓国語のテキスト-音声データセットを用いて、言語間で共有される発音埋め込み辞書を持つ多言語マルチスプーカーTacotronモデルを訓練する。
発音埋め込みを正規化し、発音を表現することで、言語間での発音類似性の比較が可能になる。
スプーカー埋め込みベクトルを用いて声の特徴を言語的コンテンツから分離し、複数のスプーカーと言語の音声合成を可能にする。
2段階の訓練プロセスを採用：高リソース言語データ（例：英語）で事前学習し、低リソース言語データ（例：韓国語）で限定的な時間（数時間）の微調整を行う。
Common Voiceデータセットを用いて、10言語を追加し、1言語あたり2時間の微調整データを用いる。
人間による好みのテスト（7段階スケール）と、Googleの音声認識APIを用いた自動単語誤り率（WER）により性能を評価する。

実験結果

リサーチクエスチョン

RQ1多言語音声合成ネットワークは、異なる言語の発音から得られる発音素をどのように表現しているか？
RQ2高リソース言語で事前学習することで、低リソース言語のTTSモデル性能が向上するか？
RQ3共有スプーカーが存在しない状況でも、学習された発音埋め込み空間が言語間の発音類似性を反映しているか？
RQ4提案された事前学習フレームワークは、多様な言語ペアにどの程度一般化可能か？
RQ5限定的なターゲット言語データと高リソース言語の事前学習を用いて、低リソース言語で自然な音声を生成できるか？

主な発見

発音が類似する言語の発音素は、埋め込み空間内でより近接してクラスタリングされることが示され、モデルが言語間の発音関係を学習していることが裏付けられた。
提案された事前学習フレームワーク（PA-HL）は、主観的好みテストと客観的WERの両面でベースラインモデルを著しく上回り、10時間の微調整データで15.0%のWERを達成した。
0.4時間の微調整データを用いた好みのテストでは、PA-HLが54.0%の比較でベースラインモデルを上回った。
10時間の微調整条件下では、PA-HLモデルが全言語ペアで他のすべてのモデルを上回り、68.3%の好み率を達成した。
10言語にさらに一般化した結果、PA-HLは9/10の言語で好みテストでPD-Hを上回り、広範な適用可能性を確認した。
十分なデータが得られない状況（例：0.4時間）では、アテンションアライメントに困難が生じたが、PA-HLは全データ設定で安定した訓練と性能を維持した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。