[論文レビュー] Efficient Neural Audio Synthesis
WaveRNN を紹介します。デュアル softmax 出力、スパーシティ、サブスケールバッチ処理により、24 kHz 16 ビット音声の高忠実度を保ちつつ、リアルタイムまたはそれ以上のリアルタイム合成を実現する、軽量な再帰モデルです。
Sequential models achieve state-of-the-art results in audio, visual and textual domains with respect to both estimating the data distribution and generating high-quality samples. Efficient sampling for this class of models has however remained an elusive problem. With a focus on text-to-speech synthesis, we describe a set of general techniques for reducing sampling time while maintaining high output quality. We first describe a single-layer recurrent neural network, the WaveRNN, with a dual softmax layer that matches the quality of the state-of-the-art WaveNet model. The compact form of the network makes it possible to generate 24kHz 16-bit audio 4x faster than real time on a GPU. Second, we apply a weight pruning technique to reduce the number of weights in the WaveRNN. We find that, for a constant number of parameters, large sparse networks perform better than small dense networks and this relationship holds for sparsity levels beyond 96%. The small number of weights in a Sparse WaveRNN makes it possible to sample high-fidelity audio on a mobile CPU in real time. Finally, we propose a new generation scheme based on subscaling that folds a long sequence into a batch of shorter sequences and allows one to generate multiple samples at once. The Subscale WaveRNN produces 16 samples per step without loss of quality and offers an orthogonal method for increasing sampling efficiency.
研究の動機と目的
- シーケンシャル神経音声モデルのサンプリング時間を品質を損なうことなく削減する。
- 効率的なデュアル softmax 出力を備えた単一層 RNN(WaveRNN)を開発する。
- 実時間またはオンデバイス合成を可能にするためのウェイトプリーニングと構造的スパーシティを検討する。
- 生成スループットを高めるために複数サンプルをバッチ生成するサブスケールサンプリングを導入する。
提案手法
- 16ビット音声サンプルを予測するデュアル softmax を備えた単一層 RNN として WaveRNN を提案する。
- Sparse WaveRNN を作成するためにウェイトプリーニングを適用し、4x4, 16x1 ブロックなどの異なるスパーシティパターンを評価する。
- オーバーヘッドを最小化し GPU でリアルタイムサンプリングを実現するためのカスタム GPU カーネルを実装する。
- 長い系列を短い系列のバッチに折り畳み、ステップあたり複数サンプルを生成する Subscale WaveRNN を導入する。
- ビット/ステップ生成を増やすための Subscale Fusion を試す。
- NLL、MOS、A/B テストを用いて 24 kHz 16-bit の音声をベンチマークする。

実験結果
リサーチクエスチョン
- RQ1デュアル軸のソフトマックスを持つコンパクトな RNN は WaveNet 品質の 16-bit 音声に匹敵するか。
- RQ2固定パラメータ予算の下で構造的スパーシティは合成品質にどのような影響を与えるか。
- RQ3サブスケールバッチ処理は忠実度を維持しつつリアルタイムまたはそれ以上のサンプリングを提供できるか。
- RQ4スパース WaveRNN のオンデバイス(モバイル CPU)サンプリングの実用的な利得はどれくらいか。
- RQ5さまざまな生成方式(サブスケール、結合サブスケール)はスループットと品質にどのように比較されるか。
主な発見
- WaveRNN(896 ユニット)は大規模な WaveNet に匹敵する NLL と、ベースラインに対して MOS が同等で、4×リアルタイムの GPU 合成(96k サンプル/秒)を達成する。
- 高スパース性(96% を超える)を持つ Sparse WaveRNN は、同じパラメータ数で小型な密結合ネットワークより忠実度が高く、モバイル CPU 上でリアルタイムに動作できる。
- B=16 の Subscale WaveRNN は 1 ステップあたり 16 サンプルを実現し、音声忠実度の損失なしでバッチ処理を可能にしてスループットを向上させる。
- GPU 上では単一の永続的な WaveRNN カーネルが 96,000 サンプル/秒(WaveRNN-896)を達成し、WaveNet ベースラインの 8,000 サンプル/秒に対して優れる。
- モバイルベースのベンチマークでは、95% の sparsity および 4x4 または 16x1 ブロック構造を用いた Sparse WaveRNN が一般的なモバイル CPU 上でリアルタイムのオンデバイス合成を示す。
- Fused Subscale WaveRNN は GPU 上で 32 bits/step を生成する場合、リアルタイムの 10 倍に到達できる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。