QUICK REVIEW

[論文レビュー] Parallel WaveNet: Fast High-Fidelity Speech Synthesis

Aäron van den Oord, Yazhe Li|arXiv (Cornell University)|Nov 28, 2017

Speech Recognition and Synthesis被引用数 343

ひとこと要約

この論文は、訓練済み WaveNet 教師モデルから Probability Density Distillation を用いて並列 feed-forward WaveNet 風モデルを訓練し、20倍以上リアルタイムを超える高忠実度の音声生成を実現し、Google Assistant にオンライン展開する。

ABSTRACT

The recently-developed WaveNet architecture is the current state of the art in realistic speech synthesis, consistently rated as more natural sounding for many different languages than any previous system. However, because WaveNet relies on sequential generation of one audio sample at a time, it is poorly suited to today's massively parallel computers, and therefore hard to deploy in a real-time production setting. This paper introduces Probability Density Distillation, a new method for training a parallel feed-forward network from a trained WaveNet with no significant difference in quality. The resulting system is capable of generating high-fidelity speech samples at more than 20 times faster than real-time, and is deployed online by Google Assistant, including serving multiple English and Japanese voices.

研究の動機と目的

実運用のためのリアルタイム生成による高忠実度音声合成の動機づけ。
WaveNet の逐次サンプリングのボトルネックを、並列モデルへ蒸留することによって克服する。
Parallel sampling を可能にしつつ、学生モデルを教師の分布に合わせる確率密度蒸留を提案する。
高いサンプリングレートと離散化されたロジスティック混合出力により音声品質を向上させる。
複数話者と言語転換機能を実演し、生産展開を示す。

提案手法

WaveNet とリアルタイム展開のための自己回帰生成の限界を説明する。
学生モデルで並列サンプリングを可能にする逆自己回帰フロー（IAFs）を導入する。
WaveNet 教師の分布に一致させるため、並列 WaveNet 学生モデルを訓練する確率密度蒸留を提案する。
非共有重みを用いたマルチフロー並列 WaveNet アーキテクチャを用いてサンプル品質を向上させる。
音声品質と安定性を向上させるため、補助損失（Power loss、Perceptual loss、Contrastive loss）を組み込む。
MOS、速度ベンチマーク、マルチ話者/言語実験で評価する。

実験結果

リサーチクエスチョン

RQ1並列のフィードフォワードネットワークは、速く并列 generation を可能にしつつ WaveNet の音声品質を再現できるか。
RQ2確率密度蒸留は、自回帰 WaveNet に対して知覚的な音声品質を維持するか。
RQ3単一の並列モデルは、教師と同等の MOS で複数の声/言語をサポートできるか。
RQ4実機上での並列 WaveNet の実用的な速度向上はどれくらいか。
RQ5補助損失は知覚音声品質と生産性の準備性をさらに向上させるか？

主な発見

蒸留された並列 WaveNet は自回帰 WaveNet と同等の MOS を達成する（4.41 ± 0.08 vs 4.41 ± 0.07）。
蒸留 WaveNet は GPU 上でリアルタイムの 20 倍以上の速度で音声を生成する（自動回帰の 172 timesteps/sec に対し、500,000 timesteps/sec 以上）。
高忠実度のマルチ話者・跨言語音声合成を Google Assistant に展開して実現。
複数のフローを追加すると（例: four flows）、MOS が改善される（single-flow の 4.21 対 multi-flow の 4.41）。
損失の組み合わせ（KL with Power、任意の Perceptual/Contrastive term）は主観的嗜好に影響を与え、KL+Power は自然さを強く、知覚的/対照的損失は追加の利益を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。