Skip to main content
QUICK REVIEW

[論文レビュー] WaveNet: A Generative Model for Raw Audio

Aäron van den Oord, Sander Dieleman|arXiv (Cornell University)|Sep 12, 2016
Music and Audio Processing被引用数 3,585
ひとこと要約

WaveNet は、 dilated causal convolutions を用いた完全確率的自己回帰モデルで、生の音声波形を生成し、TTS の自然さで最先端を達成し、音楽と音声認識にも有望な結果を示す。

ABSTRACT

This paper introduces WaveNet, a deep neural network for generating raw audio waveforms. The model is fully probabilistic and autoregressive, with the predictive distribution for each audio sample conditioned on all previous ones; nonetheless we show that it can be efficiently trained on data with tens of thousands of samples per second of audio. When applied to text-to-speech, it yields state-of-the-art performance, with human listeners rating it as significantly more natural sounding than the best parametric and concatenative systems for both English and Mandarin. A single WaveNet can capture the characteristics of many different speakers with equal fidelity, and can switch between them by conditioning on the speaker identity. When trained to model music, we find that it generates novel and often highly realistic musical fragments. We also show that it can be employed as a discriminative model, returning promising results for phoneme recognition.

研究の動機と目的

  • エンドツーエンドで生の音声波形を生成するニューラルネットワークを実証する。
  • 音声の長距離時系列依存性を捉えるための膨張因果畳み込みアーキテクチャを開発する。
  • 話者識別情報で条件付けることにより、単一モデルで複数話者の生成を可能にすることを示す。
  • WaveNet をテキスト音声合成、複数話者の音声生成、音楽モデリングで評価し、音声認識などの識別的用途も探る。

提案手法

  • 結合波形確率を条件付きの積 p(x_t | x_1,...,x_{t-1})としてモデル化する。
  • リカレントネットなしで非常に大きな受容野を得るために、膨張を伴う因果畳み込みを用いる。
  • μ-law によるオーディオの量子化と、次サンプルの条件付き分布を 256 値のソフトマックスでモデル化する。
  • ゲート付き活性化ユニットと残差/スキップ接続を深いアーキテクチャに組み込む。
  • 生成を操るためのグローバルおよびローカルな条件付けをサポートする(例:話者識別、言語特徴)。
  • 長距離依存性と異なる時間スケールを管理するために、文脈モジュールを任意に積み重ねる。

実験結果

リサーチクエスチョン

  • RQ1完全に確率的な自己回帰モデルが、波形レベルで高忠実度の生の音声を直接生成できるか?
  • RQ2膨張因果畳み込みは、RNNを用いずに長距離の音声依存性をモデル化するのに十分な受容野を提供するか?
  • RQ3単一の WaveNet モデルが複数の話者を捉え、条件付けが声質を制御できるか?
  • RQ4従来のベースラインと比較してテキスト音声合成における WaveNet の性能はどうか、また音楽をモデリングし音声認識タスクをサポートできるか?

主な発見

方法北米英語 MOS標準中国語 MOS
LSTM-RNN parametric3.67 ± 0.0983.79 ± 0.084
HMM-driven concatenative3.86 ± 0.1373.47 ± 0.108
WaveNet (L+F)4.21 ± 0.0814.08 ± 0.085
Natural (8-bit μ-law)4.46 ± 0.0674.25 ± 0.082
Natural (16-bit linear PCM)4.55 ± 0.0754.21 ± 0.071
  • WaveNet は英語と中国語(普通話)において、テキスト音声合成の主観的自然さで最先端を達成。
  • 話者識別情報で条件付けると、単一の WaveNet が複数話者をモデル化できる。
  • 膨張因果畳み込みは、指数的に成長する受容野を提供し、長距離依存性のモデリングを可能にする。
  • WaveNet を言語特徴と F0 を条件付けした MOS テストで、統計的パラメトリックおよび連結ベースのベースラインを上回る。
  • TIMIT では、フレーム分類の補助損失を用いた WaveNet が18.8%の音素誤り率を達成し、生音声識別モデルと競合する。
  • 条件付き WaveNets は知覚品質のある音楽断片を生成でき、グローバル/ローカルの条件付けは出力属性の制御をサポートする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。