QUICK REVIEW

[論文レビュー] A Survey on Neural Speech Synthesis

Xu Tan, Tao Qin|arXiv (Cornell University)|Jun 29, 2021

Speech Recognition and Synthesis参考文献 427被引用数 183

ひとこと要約

この論文はニューラルテキスト音声合成（TTS）の包括的な調査を提供し、主要要素（テキスト分析、音響モデル、ボコーダ）と高度なトピックを詳述するとともに、データセット、実装、今後の方向性を概説します。

ABSTRACT

Text to speech (TTS), or speech synthesis, which aims to synthesize intelligible and natural speech given text, is a hot research topic in speech, language, and machine learning communities and has broad applications in the industry. As the development of deep learning and artificial intelligence, neural network-based TTS has significantly improved the quality of synthesized speech in recent years. In this paper, we conduct a comprehensive survey on neural TTS, aiming to provide a good understanding of current research and future trends. We focus on the key components in neural TTS, including text analysis, acoustic models and vocoders, and several advanced topics, including fast TTS, low-resource TTS, robust TTS, expressive TTS, and adaptive TTS, etc. We further summarize resources related to TTS (e.g., datasets, opensource implementations) and discuss future research directions. This survey can serve both academic researchers and industry practitioners working on TTS.

研究の動機と目的

ニューラルTTSとそのコアコンポーネント（テキスト分析、音響モデル、ボコーダ）の歴史と現状を要約する。
エンドツーエンドの進行状況を概説し、システムが完全にエンドツーエンドである場合とよりモジュール的である場合を比較する。
高速TTS、低リソースTTS、ロバストTTS、表現力豊かなTTS、適応型TTSなどの高度なトピックを論じる。
研究者と実務者のためのデータセット、オープンソース実装、実用的リソースのカタログを提供する。
将来の研究方向と産業影響の可能性を強調する。

提案手法

テキストから波形へのデータフローに基づくニューラルTTSの分類法を提案する（文字/音素から言語/音響特徴量へ、そして波形へ）。
各コアコンポーネント（テキスト分析、音響モデル、ボコーダ）を代表的なモデルと歴史的推移とともにレビューする。
完全なエンドツーエンドTTSのアプローチを要約し、それをモジュラーなニューラルTTSパイプラインと比較する。
高速、低リソース、ロバスト、表現力豊かで適応的なTTSにおける高度なテーマと実践的課題を議論する。
再現とデプロイを支援する関連データセットとオープンソースリソースを収集・参照する。

実験結果

リサーチクエスチョン

RQ1ニューラルTTSシステムの主な構成要素とデータフローのパターンは何か。
RQ2テキスト分析、音響モデル、ボコーダはニューラルTTSでどのように進化してきたか。
RQ3完全なエンドツーエンドTTSとモジュラーアーキテクチャの主要な進歩と課題は何か。
RQ4高速、低リソース、ロバスト、表現力豊か、適応型といった高度トピックは現在および将来のTTS研究をどう形作るか。
RQ5研究者と実務者が利用できるリソース（データセット、実装）は何か。

主な発見

ニューラルTTSは従来のパラメトリック系と比較して自然さと聴取性が向上し、前処理を削減する。
ニューラルTTSの構成要素とデータフローの明確な分類法が、テキスト分析、音響モデル、ボコーダ間の文献を整理する。
エンドツーエンドTTSアプローチは、手作りの言語学/音響特徴量の必要性を減らす一方で、新たなモデリング課題を導入する。
高速・非自己回帰生成、低リソース学習、ロバスト性、表現力、話者/適応能力などの高度トピックが積極的に研究されている。
この調査は研究と産業の採用を支援するデータセットとオープンソース実装を統合する。
将来の方向性と理論、データセット、デプロイメントの分野での潜在的な研究機会を概説する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。