Skip to main content
QUICK REVIEW

[論文レビュー] Neural Audio Synthesis of Musical Notes with WaveNet Autoencoders

Jesse Engel, Cinjon Resnick|arXiv (Cornell University)|Apr 5, 2017
Music and Audio Processing参考文献 26被引用数 298
ひとこと要約

本論文は、音声合成のための時間的埋め込みを学習する WaveNet 風オートエンコーダを導入し、NSynth で評価する。スペクトルオートエンコーダのベースラインと比較して再構成が優れており、意味のある音色補間を示す。

ABSTRACT

Generative models in vision have seen rapid progress due to algorithmic improvements and the availability of high-quality image datasets. In this paper, we offer contributions in both these areas to enable similar progress in audio modeling. First, we detail a powerful new WaveNet-style autoencoder model that conditions an autoregressive decoder on temporal codes learned from the raw audio waveform. Second, we introduce NSynth, a large-scale and high-quality dataset of musical notes that is an order of magnitude larger than comparable public datasets. Using NSynth, we demonstrate improved qualitative and quantitative performance of the WaveNet autoencoder over a well-tuned spectral autoencoder baseline. Finally, we show that the model learns a manifold of embeddings that allows for morphing between instruments, meaningfully interpolating in timbre to create new types of sounds that are realistic and expressive.

研究の動機と目的

  • 外部条件づけなしに長距離の時間構造を捉える WaveNet 風オートエンコーダを開発する。
  • 学習と評価のための大規模で高品質な NSynth の音符データセットを作成する。
  • スペクトルオートエンコーダーのベースラインを上回る再構成品質と知覚忠実度を示す。
  • 学習された埋め込みが音色とダイナミクスを横断する意味のある補間をサポートすることを示す。
  • 埋め込みがピッチと音色をどのようにエンコードし、条件付けが表現にどのように影響するかを探る。

提案手法

  • 時間的エンコーダを設計する:30層の残差拡張畳み込みネットワークで、時間分布埋め込み Z を生成する。
  • 埋め込まれた Z に条件付けされた WaveNet デコーダを設計し、各層を Z の投影でバイアス付けし、音声レートへ時間軸アップサンプリングする。
  • 各出力サンプルごとに Z で条件付けされた自己回帰生成とともに、mu-law 8-bit 量子化で学習する。
  • スペクトログラム表現で訓練された畳み込みスペクトルオートエンコーダのベースラインと比較する。
  • データセットとして NSynth を使用する:およそ306k の音符、各々 4 秒、16 kHz、約1000 楽器に跨る。

実験結果

リサーチクエスチョン

  • RQ1外部条件づけなしに、WaveNet 風オートエンコーダは音声合成の長期的な時間構造を学習できるか?
  • RQ2学習された埋め込みは音色とダイナミクスを捉え、楽器間の補間が現実的な音を生み出すか?
  • RQ3再構成品質と知覚忠実度の観点で、WaveNet オートエンコーダはスペクトルオートエンコーダのベースラインとどう比較されるか?
  • RQ4ピッチ条件付けは学習された埋め込み Z においてピッチと音色をどの程度まで分離できるか?
  • RQ5訓練文脈を超えた時間埋め込みの特性と一般化能力は何か?

主な発見

モデルピッチ精度品質精度
元の音声91.6%90.1%
WaveNet Recon79.6%88.9%
Baseline Recon46.9%85.2%
  • WaveNet オートエンコーダは再構成タスクにおいてスペクトルオートエンコーダベースラインより知覚的・定性的忠実度が高い。
  • 埋め込みで訓練された分類器は、WaveNet 再構成の方がベースライン再構成よりピッチと品質予測精度が高く、音色とピッチの手掛かりの保持がより良いことを示している。
  • 埋め込みは楽器間の意味のある音色/ダイナミクス補間をサポートし、単純な重ね合わせではなく知覚的に一貫したブレンドを生み出す。
  • 訓練時のピッチ条件付けは、ピッチと音色の分離を様々な程度で促す傾向があり、より大きな埋め込みサイズでは分離が弱くなる。
  • 時間埋め込みは駆動関数のような挙動を示し、訓練時に見たより長いノート列への一般化を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。