Skip to main content
QUICK REVIEW

[論文レビュー] AutoMOS: Learning a non-intrusive assessor of naturalness-of-speech

Brian Patton, Yannis Agiomyrgiannakis|arXiv (Cornell University)|Nov 28, 2016
Topic Modeling参考文献 13被引用数 57
ひとこと要約

AutoMOS は、参照信号を必要とせず、生の音声波形から自然な音声の品質(MOS)を予測する深層再帰ニューラルネットワークを提案する。合成音声のレベルでスピアマン相関係数 0.949 を達成し、人間の評価者に近い性能に近づいた。モデルは生波形を入力とし、スタックされたLSTMを用いて長期的な時系列依存関係を学習することで、非侵襲的でスケーラブルなTTS品質評価と自動チューニングを可能にする。

ABSTRACT

Developers of text-to-speech synthesizers (TTS) often make use of human raters to assess the quality of synthesized speech. We demonstrate that we can model human raters' mean opinion scores (MOS) of synthesized speech using a deep recurrent neural network whose inputs consist solely of a raw waveform. Our best models provide utterance-level estimates of MOS only moderately inferior to sampled human ratings, as shown by Pearson and Spearman correlations. When multiple utterances are scored and averaged, a scenario common in synthesizer quality assessment, AutoMOS achieves correlations approaching those of human raters. The AutoMOS model has a number of applications, such as the ability to explore the parameter space of a speech synthesizer without requiring a human-in-the-loop.

研究の動機と目的

  • 高コストな人間の評価者を避ける非侵襲的かつ自動化されたTTS自然さ評価システムの開発を目的とする。
  • 綺麗な参照信号を必要とせず、生の音声波形のみを入力として用いて人間の平均評価点(MOS)をモデル化することを目的とする。
  • 人間によるフィードバックループ評価を置き換えることで、TTSシステムのスケーラブルな自動チューニングと継続的品質監視を可能にすることを目的とする。
  • 予測が0.5ポイント刻みの単位で行われても、発話レベルおよび合成エンジンレベルで人間の評価と高い相関を達成することを目的とする。
  • 深層学習がTTSエンジンの内部構造やコスト関数とは独立して、内在的な音声自然さのパターンを学習できるかどうかを検討することを目的とする。

提案手法

  • 生の16kHz音声波形を入力として、スタックされた長短期記憶(LSTM)層を持つ深層再帰ニューラルネットワークを訓練し、長期的な時系列依存関係を捉える。
  • 入力表現としてログメルスペクトログ램または時間プーリングされた1次元畳み込みを用い、さらに速度および加速度の特徴を追加する。
  • 最終LSTM層の出力を時間軸にわたってマックスプールし、その後全結合層を通過させてMOSを予測する。
  • L2損失(予測MOSに対する)、9段階の評価分布に対する交差エントロピー、およびガウス分布下での対数尤度の3つの損失戦略を用いて訓練する。
  • 訓練の正則化と一般化性能の向上を図るため、真の合成エンジンの埋め込み表現を学習する。
  • データ漏洩を防ぎ、現実的な評価を実現するため、合成エンジン単位でデータを分割した5分割交差検証を実施する。

実験結果

リサーチクエスチョン

  • RQ1生の音声波形のみを用いて、参照信号を必要とせず、合成音声のための人間のMOSを深層学習モデルが予測できるか?
  • RQ2モデルの予測は、発話レベルおよび集約された合成エンジンレベルで、人間の評価とどの程度相関しているか?
  • RQ3モデルは異なるTTS合成エンジン間で一般化可能であり、テキスト分布や合成パラメータの変動に対しても高い予測精度を維持できるか?
  • RQ4人間の評価スケールに一致する0.5ポイント刻みのMOS予測においても、モデルの性能は安定しているか?
  • RQ5AutoMOS はTTSシステムの自動チューニングおよび継続的品質監視に実際に有効に利用できるか?

主な発見

  • AutoMOS は合成エンジンレベルで予測値と真のMOSの間でスピアマン順位相関係数 0.949 を達成し、サンプリングされた人間評価の 0.986 に近い性能を示した。
  • 10通以上の発話を平均化すると、ピアソン相関係数 0.933、スピアマン相関係数 0.925 を達成し、人間の性能に非常に近い。
  • 合成エンジンレベルでの0.5ポイント刻みの量子化MOS予測において、RMSEは 0.075、ピアソン相関係数 0.935、スピアマン相関係数 0.938 を達成した。
  • 5分割の中央値キャリブレーション相関係数は、予測MOSが類似するグループで 0.9 を超えており、予測分布の信頼性が非常に高いことを示している。
  • 発話レベルではバイアスのみのベースライン(RMSE 0.618)および長さに基づくニューラルネットワーク(RMSE 0.553)を上回り、特に合成エンジンレベルで顕著な向上を示した。
  • 量子化に対して頑健であり、極端なスコアの過剰予測を回避しており、人間のMOSデータの自然な分布を反映している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。