QUICK REVIEW

[論文レビュー] The challenge of realistic music generation: modelling raw audio at scale

Sander Dieleman, Aäron van den Oord|arXiv (Cornell University)|Jun 26, 2018

Music and Audio Processing参考文献 47被引用数 76

ひとこと要約

この論文は、自己回帰離散オートエンコーダを用いて長さ数十秒にわたる長距離構造を捉え、 raw audio domain でのピアノ音楽を直接生成することを探究し、階層モデリング設定内で VQ-VAE と AMAE の実装を比較する。

ABSTRACT

Realistic music generation is a challenging task. When building generative models of music that are learnt from data, typically high-level representations such as scores or MIDI are used that abstract away the idiosyncrasies of a particular performance. But these nuances are very important for our perception of musicality and realism, so in this work we embark on modelling music in the raw audio domain. It has been shown that autoregressive models excel at generating raw audio waveforms of speech, but when applied to music, we find them biased towards capturing local signal structure at the expense of modelling long-range correlations. This is problematic because music exhibits structure at many different timescales. In this work, we explore autoregressive discrete autoencoders (ADAs) as a means to enable autoregressive models to capture long-range correlations in waveforms. We find that they allow us to unconditionally generate piano music directly in the raw audio domain, which shows stylistic consistency across tens of seconds.

研究の動機と目的

生の音楽をモデリングすることが、シンボリック表現が見落とす演奏のニュアンスを捉える上で実現可能かつ有益であることを示す。
自己回帰モデルの局所構造バイアスを、感受野を拡張する階層 ADA を導入して解消する。
音楽データ上で安定・拡張可能な訓練を可能にする、2つの離散ボトルネック方式（VQ-VAE と AMAE）を提案・比較する。
多段階の自己回帰モデルが長距離の楽曲整合性を持つピアノ音楽を生成できることを示す。
生成サンプルの忠実性と音楽性を評価するための定性的・定量的分析を提供する。

提案手法

自己回帰離散オートエンコーダ（ADA）を用いて、情報内容を制御可能な離散圧縮条件信号を作成する。
ADA を（i）ベクトル量子化を用いる VQ-VAE、（ii）argmax ベースの量子化と多様性損失を用いる AMAE の形で実装する。
エンコーダのダウンサンプリングを付加して低レートの条件シーケンスを生成し、コード列上で2段の自己回帰モデルを訓練する。
効果的な受容野を拡張し長距離の構造モデリングを可能にするため、複数のレベル（ホップサイズ）を積み重ねる。
音声には 16 kHz mu-law 8-bit 量子化を用い、波形レベルの NLL、コードブック perplexities、定性的なヒト聴取研究で評価する。
エンコーダ、モジュレーター、局所的な自己回帰デコーダには WaveNet 風のアーキテクチャを活用し、受容野の制御を正確に可能にする。

実験結果

リサーチクエスチョン

RQ1自己回帰モデルは、局所的な音色や短期ダイナミクスを超えた生の音声音楽の長距離構造を捉えられるか。
RQ2大きな受容野を持つ階層 ADA アーキテクチャは、生成されたピアノ音の音楽性と一貫性を改善するか。
RQ3VQ-VAE と AMAE のボトルネックは、訓練の安定性、再構成品質、難解な音楽データに対するコードの利用度の点でどう比較されるか。
RQ4複数レベルの ADA を積み重ねると、条件なしピアノ音楽生成の忠実度と音楽性に perceptible な改善をもたらすか。

主な発見

ホップサイズ 8 の ADA は、基準の WaveNet より条件付き NLL を大幅に低減し、条件付けとして使用した場合に長距離構造を実現できる。
AMAE は難解な音楽データ上で VQ-VAE よりも収束性が高く安定する一方、慎重な訓練（例：PBT）を行えば VQ-VAE の再構成品質を達成できる場合がある。
ADA が生成するコード列は生波形より局所的には予測しづらく、より高次の自己回帰モデリングが長距離パターンを捉えるのに適している。
2段階および3段階の階層構造（コード列上の ADA を大規模な WaveNet に供給）は、知覚される音楽性の向上に notable な効果をもたらし、多くのサンプルで和音と構造が改善された。
長距離の忠実度を高めるほど局所信号の忠実度には代償が生じることがある；複数レベルの ADA を用いたサンプルは音楽的に一貫性が高い傾向だが、忠実度は曲ごとに異なる場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。