Skip to main content
QUICK REVIEW

[論文レビュー] Speaker-adaptive neural vocoders for statistical parametric speech synthesis systems.

Eunwoo Song, Jinseob Kim|arXiv (Cornell University)|Nov 8, 2018
Speech Recognition and Synthesis参考文献 22被引用数 2
ひとこと要約

本稿では、限られたターゲットスプーカーのデータで高品質な音声を生成できるように、統計的パrametric TTSシステム向けにスプーカー適応型ニューラルボコーダーを提案する。スプーカーに依存しないモデルを事前学習し、10分間の音声データでのファインチューニングにより、韓国語話者に対して男性で3.80、女性で3.77のMOSスコアを達成し、従来のソース・フィルターボコーダーや標準的なWaveNetベースの手法を上回る性能を発揮した。

ABSTRACT

This paper proposes speaker-adaptive neural vocoders for parametric text-to-speech (TTS) systems. Recently proposed WaveNet-based neural vocoding systems successfully generate a time sequence of speech signal with an autoregressive framework. However, it remains a challenge to synthesize high-quality speech when the amount of a target speaker's training data is insufficient. To generate more natural speech signals with the constraint of limited training data, we propose a speaker adaptation task with an effective variation of neural vocoding models. In the proposed method, a speaker-independent training method is applied to capture universal attributes embedded in multiple speakers, and the trained model is then optimized to represent the specific characteristics of the target speaker. Experimental results verify that the proposed TTS systems with speaker-adaptive neural vocoders outperform those with traditional source-filter model-based vocoders and those with WaveNet vocoders, trained either speaker-dependently or speaker-independently. In particular, our TTS system achieves 3.80 and 3.77 MOS for the Korean male and Korean female speakers, respectively, even though we use only ten minutes' speech corpus for training the model.

研究の動機と目的

  • ターゲットスプーカーの学習データが乏しい状況での低品質な音声合成の課題に対処すること。
  • 最小限のスプーカー固有データで統計的パrametric TTSシステムにおける合成音声の自然さと品質を向上させること。
  • スプーカーに依存しない事前学習と、限られたデータでの効果的なスプーカー適応を可能にするニューラルボコーダーを開発すること。
  • スプーカーに依存する・しない両方の状況で、従来のボコーダー(WaveNetベースやソース・フィルターモデル含む)を上回ること。

提案手法

  • 多様なスプーカーのデータでニューラルボコーダーを学習し、スプーカーに依存しない方法で普遍的な音声特徴を学習する。
  • ターゲットスプーカーの限られた音声データ(10分間)で事前学習済みモデルをファインチューニングし、スプーカー固有の特徴に適応させる。
  • アトローレイティブなWaveNetスタイルのアーキテクチャを用いて、音声特徴から高精細な音声波形を生成する。
  • 推論時にターゲットスプーカーのデータに基づいてスプーカー埋め込みを条件付きにすることで、スプーカー適応を実現する。
  • 再構成損失と知覚的損失の組み合わせを最適化することで、自然さを向上させる。
  • 統計的パrametric TTSパイプラインに適応済みボコーダーを統合し、エンドツーエンドの音声合成を実現する。

実験結果

リサーチクエスチョン

  • RQ110分間程度のターゲットスプーカーのデータしか利用できない状況でも、スプーカー適応型ニューラルボコーダーが顕著に音声品質を向上させられるか?
  • RQ2知覚的品質の観点から、スプーカー適応学習はスプーカーに依存しない学習やスプーカーに依存する学習と比べてどのように差がつくか?
  • RQ310分間のデータのみで、事前学習済みのスプーカーに依存しないモデルをどれだけ効果的にファインチューニングできるか?
  • RQ4本手法は、限られたデータ環境下で、従来のソース・フィルターボコーダーや標準的なWaveNetベースのボコーダーを上回るか?

主な発見

  • 提案されたスプーカー適応型ニューラルボコーダーは、韓国語男性話者に対して10分間の学習データのみで平均意見スコア(MOS)3.80を達成した。
  • 韓国語女性話者ではMOSが3.77に達し、極めて少ないデータでも自然な音声が得られることを示した。
  • 従来のソース・フィルターモデルベースのボコーダーや、スプーカーに依存する・しないモードで学習された標準的なWaveNetボコーダーをすべて上回った。
  • 特にデータが乏しい状況において、ベースライン手法に比べて顕著な品質向上が達成された。
  • ファインチューニングによりスプーカー固有の特徴を効果的に捉え、より自然でスプーカーに一貫性のある音声合成が可能になった。
  • 事前学習済みのスプーカーに依存しないモデルを、限られたデータで的確に適応させることで、学習から再構築するよりも優れた性能が得られることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。