Skip to main content
QUICK REVIEW

[論文レビュー] DeepBach: a Steerable Model for Bach Chorales Generation

Gaëtan Hadjeres, François Pachet|arXiv (Cornell University)|Dec 3, 2016
Music and Audio Processing参考文献 24被引用数 125
ひとこと要約

DeepBach は、ノート、リズム、編成をユーザーが制約できる擬似Gibbsサンプリングを介して、四声のバッハ・コラールを生成する steerable dependency-network モデルです。バッハ風の品質を達成し、MuseScore との統合によるインタラクティブな作曲を可能にします。

ABSTRACT

This paper introduces DeepBach, a graphical model aimed at modeling polyphonic music and specifically hymn-like pieces. We claim that, after being trained on the chorale harmonizations by Johann Sebastian Bach, our model is capable of generating highly convincing chorales in the style of Bach. DeepBach's strength comes from the use of pseudo-Gibbs sampling coupled with an adapted representation of musical data. This is in contrast with many automatic music composition approaches which tend to compose music sequentially. Our model is also steerable in the sense that a user can constrain the generation by imposing positional constraints such as notes, rhythms or cadences in the generated score. We also provide a plugin on top of the MuseScore music editor making the interaction with DeepBach easy to use.

研究の動機と目的

  • 制御可能な制約を持つ Bach 風の四-part コラールの自動生成を動機づける。
  • 多声音楽に適したデータ表現と依存ネットワークベースのアーキテクチャを提案する。
  • ユーザーが課した制約をサポートする擬似Gibbsサンプリング生成手順を開発する。
  • 実験と MuseScore プラグインを通じて、システムの音楽性と対話性を実証する。

提案手法

  • 4つのバッハ声部を別々に MIDI ピッチで表現し、ノートリストにホールド記号を統合する。
  • 各声部に対して時間を通じて共有される、4つの条件付き分布 p_i(V_i^t | V_{-i,t}, M, theta_i) を備える依存ネットワークを定義する。
  • 局所的な文脈 (t-Δt から t+Δt) 内で V_i^t を予測するために、Deep RNN(2つの LSTM)と非再帰分岐を用いる。
  • 時間を通じて重みを共有しつつ、各声部の局所対数尤度を最大化して訓練する。
  • 擬似Gibbsサンプリング(Algorithm 1)を用いて生成し、一度に1つの V_i^t を再サンプリングする。声部、リズム、ファルマタ、メタデータに対する制約を許可する。
  • サンプリング効率を向上させるためのホールド記号を含むデータ表現と、GPU 加速並列化を提供する。

実験結果

リサーチクエスチョン

  • RQ1可制御サンプリングを備えた依存ネットワークモデルは、 Bach 風の四声コラールを生成できるか?
  • RQ2ホールド記号の組み込みと局所的文脈の導入は、バッハのコラール特性を効果的に捉えるか?
  • RQ3ユーザーが課す制約のもとで、一貫した複声部音楽を生成する際の擬似Gibbsサンプリングの性能はどの程度か?
  • RQ4MIDIベースでノート名を強化したエンコーディングは、対話的利用時の音楽的正当性と綴りを改善するか?
  • RQ5MuseScore プラグインを介して reharmonization、終止、転調などの対話的ワークフローをシステムはサポートできるか?

主な発見

  • モデルはバッハ風の四声コラールを音楽的に説得力を持って生成する。
  • 選択されたデータ表現とともに、擬似Gibbsサンプリングアプローチは、バッハ風の一貫したテクスチャとリハモナイゼーションを生み出す。
  • 制約付き生成は、他の声部をサンプリングしている間、ソプラノ旋律、リズム、和音、終止、転調などの要素を固定できる。
  • オンラインの人間リスナー評価は、より複雑なモデルほどバッハ風が増し、研究で DeepBach のサンプルの約半数がリスナーにバッハとして評価された。
  • 本システムは MuseScore プラグインを通じた対話的作曲と、ノート名エンコーディングおよびモジュレーションの操縦への適応をサポートする。
  • 実験は、数秒でコラールを生成するのに十分高速であり、GPU並列化でスケーラブルであることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。