Skip to main content
QUICK REVIEW

[論文レビュー] Counterpoint By Convolution.

Cheng-Zhi Anna Huang, Tim Cooijmans|arXiv (Cornell University)|Oct 23, 2017
Music and Audio Processing参考文献 10被引用数 80
ひとこと要約

Coconet は部分譜を完成させる深層畳み込みモデルを orderless NADE トレーニングで訓練し、ブロック Gibbs 采样でサンプル品質を向上させ、バッハのコラールで Gibbs ベースの手法が祖先サンプリングを上回ることを示す。

ABSTRACT

Machine learning models of music typically break up the task of composition into a chronological process, composing a piece of music in a single pass from beginning to end. On the contrary, human composers write music in a nonlinear fashion, scribbling motifs here and there, often revisiting choices previously made. In order to better approximate this process, we train a convolutional neural network to complete partial musical scores, and explore the use of blocked Gibbs sampling as an analogue to rewriting. Neither the model nor the generative procedure are tied to a particular causal direction of composition. Our model is an instance of orderless NADE (Uria et al., 2014), which allows more direct ancestral sampling. However, we find that Gibbs sampling greatly improves sample quality, which we demonstrate to be due to some conditional distributions being poorly modeled. Moreover, we show that even the cheap approximate blocked Gibbs procedure from Yao et al. (2014) yields better samples than ancestral sampling, based on both log-likelihood and human evaluation.

研究の動機と目的

  • 部分譜を完成させることができる音楽対位法の畳み込み生成モデルを導入する。
  • 任意の文脈で条件付けを可能にするために orderless NADE トレーニングを活用する。
  • サンプリング戦略を評価し、ブロック Gibbs サンプリングでサンプル品質の改善を示す。
  • 複数の時間分解能で Bach のコラールに対して、シーケンスベースのモデルと性能を比較する。

提案手法

  • 音楽をピアノロール (I x T x P) として表現し、深層 CNN で p_theta(x) をモデル化する。
  • すべての文脈 C に対して p_theta(x_i | x_C) を学習するよう orderless NADE で訓練する。
  • 楽譜のランダムな部分集合 C をマスクし、残りを音高のソフトマックスを用いて再構成する。
  • ground-truth フレームを用いずにモデル予測を条件付けするフレームベースの対数尤度評価を用いる。
  • 逐次順序とランダム順序を比較し、祖先サンプリングとアニーリング付きのブロック Gibbs サンプリングを含むサンプリング手法を評価する。
  • 再現性のための公開コードとサンプルを提供する。

実験結果

リサーチクエスチョン

  • RQ1orderless NADE の下で訓練された畳み込みモデルは部分的なポリフォニック・スコアを効果的に完成させられるか?
  • RQ2orderless NADE 設定においてブロック Gibbs サンプリングは祖先サンプリングよりサンプル品質を改善するか?
  • RQ3サンプリング方式(祖先 vs ブロック Gibbs、独立 vs 祖先) は Bach コラールの対数尤度と人間の判断にどのように影響するか?
  • RQ4ポリフォニック音楽生成における時間解像度はモデルの尤度と評価指標にどのような影響を与えるか?

主な発見

ModelQuarter note NLLEighth note NLLSixteenth note NLL
Nade [ 4 ]7.19
RNN-RBM [ 4 ]6.27
RNN - Nade [ 4 ]5.56
RNN - Nade (our implementation)5.033.782.05
Coconet (chronological)7.79±0.094.21±0.052.22±0.03
Coconet (random)5.03±0.061.84±0.020.57±0.01
  • Block Gibbs sampling significantly improves sample quality over ancestral sampling.
  • Independent blocked Gibbs sampling yields better samples and faster generation than ancestral sampling.
  • Random orderings provide better log-likelihoods than strictly chronological orderings on Bach chorales.
  • Temporal resolution affects reported log-likelihoods, with higher resolutions influencing evaluation due to chord-change sparsity.
  • Sampling likelihoods with independent Gibbs are competitive with or superior to naive Nade ancestral sampling, as shown by both quantitative and human evaluations.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。