Skip to main content
QUICK REVIEW

[論文レビュー] Speech Synthesis with Neural Networks

Orhan Karaali, Gerald Corrigan|ArXiv.org|Nov 24, 1998
Speech Recognition and Synthesis参考文献 10被引用数 31
ひとこと要約

本論文では、時間遅延ニューラルネットワーク(TDNN)を用いた発音記号から音声パラメータへのマッピングと、別個のニューラルネットワークを用いた発音長予測を行うニューラルネットワークベースの音声合成システムを提示している。100 KB未満のメモリ使用量で自然な音声を生成でき、コンcatenativeシステムと比較して著しく少ない。また、中程度の単語認識度スコアであるが、商業的システムを上回る音声受容性を達成している。

ABSTRACT

Text-to-speech conversion has traditionally been performed either by concatenating short samples of speech or by using rule-based systems to convert a phonetic representation of speech into an acoustic representation, which is then converted into speech. This paper describes a system that uses a time-delay neural network (TDNN) to perform this phonetic-to-acoustic mapping, with another neural network to control the timing of the generated speech. The neural network system requires less memory than a concatenation system, and performed well in tests comparing it to commercial systems using other technologies.

研究の動機と目的

  • 従来のコンcatenativeおよびルールベースの音声合成の制限を克服するため、低メモリかつ高品質なニューラルネットワークベースのテキスト・トゥ・スピーチ(TTS)システムの開発。
  • 通常数メガバイトのディファインデータを必要とするコンcatenativeシステムと比較して、ストレージ要件の低減。
  • 手作業で作成されたルールに依存せず、実際の音声データを学習することで、音声の自然さの向上。
  • ポータブルプラットフォームにおけるリアルタイム実行可能性を含め、音声品質、認識度、リアルタイム性能の評価。

提案手法

  • 時間遅延ニューラルネットワーク(TDNN)が、文脈依存特徴を用いて発音記号表現を音声パラメータにマッピングする。
  • 別個のニューラルネットワークが、発音および文法的文脈に基づいて発音長を予測する。
  • 1人の男性発話者から収集した640文の発音およびプロソディックラベル付き音声データベースを用いる。
  • バックプロパゲーションを用い、逐次的およびランダムなデータ提示を組み合わせたハイブリッドトレーニングモードでニューラルネットワークを訓練する。
  • 最終的なネットワークトポロジーは、TDNN、再帰的およびモジュラー設計原理を統合し、コンactさとパフォーマンスの最適化を図る。
  • C言語で実装され、PowerPCベースのハードウェアに移植され、リアルタイム音声合成を可能にした。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークベースのTTSシステムは、ルールベースまたはコンcatenativeシステムと比較して、より自然な音声を生成できるか?
  • RQ2従来のコンcatenativeシステムと比較して、ニューラルネットワークは音声合成のためのメモリ要件を低減できるか?
  • RQ31人の発話者からのデータで学習したニューラルネットワークは、多様な発話文においても受け入れ可能な音声品質を生成できるか?
  • RQ4商業的システムと比較して、ニューラルネットワークTTSシステムの認識度と受容性はどのように評価されるか?
  • RQ5低消費電力のポータブルハードウェア上でリアルタイムに実装可能か?

主な発見

  • ニューラルネットワークシステムは、音声受容性スコアで5段階中4.3を達成し、DECTalk(3.5)やPlainTalk(2.3)といった商業的システムを著しく上回った。
  • 単語レベルの認識度は55%であり、一部の商業的システムより低かったが、これは単語単位のトレーニングデータが不足していた可能性がある。
  • トレーニング済みのニューラルネットワークは、8ビット量子化された重みで100 KB未満のメモリ使用量に抑えられ、コンcatenativeシステムが要する数メガバイトと比較して顕著な改善であった。
  • Power Macintosh 8500/120のPowerPCチップが備える高速乗算累積命令を活用し、リアルタイム音声合成が達成された。
  • スペクトログラムの結果から、自然な発音長を再現した合成音声は、自然な音声と品質が類似していることが示された。
  • 独立したテストにより、本システムの優れた自然さが確認されたが、単語認識度およびイントネーションのばらつきの改善が今後の課題である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。