QUICK REVIEW

[論文レビュー] Song From PI: A Musically Plausible Network for Pop Music Generation

Hang Chu, Raquel Urtasun|arXiv (Cornell University)|Nov 10, 2016

Music and Audio Processing被引用数 32

ひとこと要約

この論文では、音楽理論に基づいた階層的構造をとる再帰ニューラルネットワークを提案し、メロディ、コード、ドラムを体系的かつ理論的根拠に基づいてモデル化することで、音楽的に妥当なポップ音楽を生成する。人間による評価では、Googleが生成したベースラインと比較して著しく好まれており、ニューラルダンシングやカラオケといった新たな応用が可能になる。

ABSTRACT

We present a novel framework for generating pop music. Our model is a hierarchical Recurrent Neural Network, where the layers and the structure of the hierarchy encode our prior knowledge about how pop music is composed. In particular, the bottom layers generate the melody, while the higher levels produce the drums and chords. We conduct several human studies that show strong preference of our generated music over that produced by the recent method by Google. We additionally show two applications of our framework: neural dancing and karaoke, as well as neural story singing.

研究の動機と目的

音楽理論をニューラルネットワークのアーキテクチャに統合することで、一貫性があり音楽的に妥当なポップソングを生成する音楽生成フレームワークを開発すること。
従来のモデルが単一のノートメロディしか生成できないという限界を克服し、メロディ、コード、ドラムを同時にモデル化するマルチトラック音楽の生成を実現すること。
ニューラルダンシング（音楽駆動型の3次元スティックフィギュアアニメーション）やカラオケ（音楽と同期した歌詞）といった新たな応用を可能にすること。
画像キャプションなどの非音楽的入力から、エンドツーエンドで歌える曲を生成する「ニューラルストーリーシンギング」を探索すること。
人間評価およびアブレーションスタディを通じて、生成音楽の知覚的品質と構造的整合性の面でモデルの優位性を検証すること。

提案手法

下位レイヤーがメロディを生成し、上位レイヤーがコードとドラムを生成する階層的RNN構造を採用。各レイヤーは直前の出力を条件として、時間的整合性を保つ。
メロディ生成部はスケールタイプ（例：A harmonic minor）に条件付けられており、音楽理論の知識がモデルアーキテクチャに組み込まれている。
Just Dance動画を処理する3次元ポーズ推定パイプラインにより、2次元および3次元の人体ポーズを抽出し、456の動きパターンにクラスタリングしてニューラルダンシングに活用。
カラオケ用途では、LRC形式を用いて歌詞をMIDIと時間的に同期させ、語単位の生成レイヤーが1拍ごとに1語を生成。3390語の語彙に対するソフトマックス出力を用いる。
ニューラルストーリーシンギングでは、Kirosらのニューラルストーリーテラーを用いて画像からキャプションを生成し、その後、プロファイル条件付きLSTMを用いてピッチマップされた歌唱に変換。
ポーズおよび歌詞生成には交差エントロピー損失を適用し、推論時に移動平均を用いて時間的スムージングを実施することで、動きおよび歌詞のなめらかさを向上。

実験結果

リサーチクエスチョン

RQ1音楽理論を組み込んだ階層的RNNアーキテクチャは、従来の単一トラックまたは非階層的モデルと比較して、より音楽的に妥当なポップソングを生成できるか？
RQ2スケールタイプに条件づけることで、生成音楽のメロディカルな質とトーナル整合性が向上するか？
RQ3同じ音楽生成フレームワークを用いて、時間的に整合性の高いダンスモーションとカラオケ歌詞を生成できるか？
RQ4ニューラルモデルは自由形式の画像キャプションから、歌える曲を生成でき、ピッチとリズムの整合性を保てるか？
RQ5人間評価において、生成音楽の知覚的品質は、強力なベースライン（例：GoogleのMagenta）と比較してどうなるか？

主な発見

人間評価では、提案モデルが生成した音楽がGoogleのMagentaベースラインと比較して統計的に有意に好まれており、参加者らはそれをより音楽的に妥当で楽しいと評価した。
アブレーションスタディにより、階層構造とスケール条件づけが音楽品質を著しく向上させることを確認。両方のコンポONENTを削除すると、整合性が低く、不快な出力が得られた。
ニューラルダンシングアプリケーションは、音楽と時間的に整合した3次元スティックフィギュアアニメーションを成功裏に生成。多くの場合、自然でリズムに同期した動きが得られた。
カラオケアプリケーションは、音楽と良好に同期した歌詞を生成しており、1拍ごとに1語が生成され、適切な文の区切りも取れているため、カラオケ機能が実現可能。
ニューラルストーリーシンギングは、画像キャプションをリズミカルで歌える曲に成功裏に変換し、ピッチ制約付きのボーカル出力を得た。これにより、モデルのモodal間の一般化能力が裏付けられた。
100時間のMIDI音楽という比較的小さなデータセットでも、音楽理論による強いインダクティブバイアスのおかげで高品質な生成が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。