QUICK REVIEW

[論文レビュー] Modeling Multi-speaker Latent Space to Improve Neural TTS: Quick Enrolling New Speaker and Enhancing Premium Voice

Yan Deng, Lei He|arXiv (Cornell University)|Dec 13, 2018

Speech Recognition and Synthesis参考文献 13被引用数 30

ひとこと要約

本稿では、共有スプライター潜在空間を活用することで、5分未塔のデータで高速かつ高品質なボイスクラーニングを実現するとともに、スプライター間データ一般化によりプレミアムボイス品質を向上させるマルチスプライター神経TTSモデルを提案する。スプライター埋め込みとスペクトル特徴を同時にモデリングすることで、新規スプライターに対して自然さのMOSが4.16、スプライター類似度が4.64に達し、ドメイン外テキスト合成では4.5を記録。これは人間の録音品質（4.58）に非常に近い。

ABSTRACT

Neural TTS has shown it can generate high quality synthesized speech. In this paper, we investigate the multi-speaker latent space to improve neural TTS for adapting the system to new speakers with only several minutes of speech or enhancing a premium voice by utilizing the data from other speakers for richer contextual coverage and better generalization. A multi-speaker neural TTS model is built with the embedded speaker information in both spectral and speaker latent space. The experimental results show that, with less than 5 minutes of training data from a new speaker, the new model can achieve an MOS score of 4.16 in naturalness and 4.64 in speaker similarity close to human recordings (4.74). For a well-trained premium voice, we can achieve an MOS score of 4.5 for out-of-domain texts, which is comparable to an MOS of 4.58 for professional recordings, and significantly outperforms single speaker result of 4.28.

研究の動機と目的

新規スプライターに対して数分間の音声データのみで、迅速かつ高精細なボイスクラーニングを可能にすること。
ドメイン外および複雑な文脈の発話に対して、プレミアムボイスの一般化性能を向上させること。
マルチスプライターモデリングの利点が、ゼロショット適応およびドメイン内性能の両面でどのように向上するかを検討すること。
共有潜在空間表現がニューラルTTSにおけるスプライター類似度と自然さをどのように向上させるかを調査すること。
マルチスプライター事前学習が、合成品質を維持または向上させながらデータ依存性を顕著に低減できることを実証すること。

提案手法

エンドツーエンドのニューラルTTSモデルのスペクトル予測部およびボコーダ部にスプライター埋め込みを統合する。
スプライター符号化器または固定ルックアップテーブルを用いて、音声データからスプライター固有の潜在表現を抽出する。
マルチスプライターコーパス上でモデルをエンドツーエンドに学習させ、スプライター識別子と音声特徴の両方を同時に最適化可能にする。
新規スプライター1人あたり50発話のエンrollment音声のみでファインチューニングすることで、少数ショットスプライター適応を実現する。
事前学習段階で他のスプライターのデータを活用することで、プレミアムボイスのドメイン外入力に対するロバスト性を向上させる。
t-SNEを用いてスプライター埋め込みを可視化し、実際のスプライター録音と類似したクラスタリングが実現されていることを確認する。

実験結果

リサーチクエスチョン

RQ1新規スプライターに対して5分未塔のデータで、マルチスプライター神経TTSモデルが高スコアのスプライター類似度と自然さを達成できるか？
RQ2マルチスプライター事前学習は、単一スプライターモデルと比較して、ドメイン外および複雑な文脈の文に対する一般化性能をどの程度向上させるか？
RQ3共有スプライター潜在空間表現は、ボイスクラーニング品質の向上とデータ要件の低減にどの程度寄与するか？
RQ4スプライター間データを統合することで、十分に訓練されたプレミアムボイスのロバスト性と自然さが向上するか？
RQ5スプライター埋め込みは、スプライター潜在空間におけるより良い分離性とクラスタリングをどのように促進するか？

主な発見

50発話（5分未塔）のエンrollmentデータでのみ、自然さのMOSが4.16、スプライター類似度が4.64に達し、人間録音（4.74）に非常に近い。
マルチスプライターモデルはドメイン外一般化性能を向上させ、複雑な文ではMOSが4.5を記録。単一スプライターベースライン（p < 0.01）の4.28と比較して顕著に優れている。
ドメイン外テストセットにおけるマルチスプライターモデルのMOS（4.5）は、プロフェッショナル録音（4.58）とほとんど区別がつかない。強力な一般化性能を示している。
0.5時間のデータでもMOSが4.07に達し、15時間で4.57に向上。人間レベルの品質に近づいている。
t-SNE可視化により、合成スプライター埋め込みが実際のスプライター埋め込みと密接にクラスタリングされていることが確認され、効果的なスプライター表現学習が実現している。
長文や複雑な文において、ドメイン内およびドメイン外両設定で、単一スプライター基準モデルを著しく上回っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。