[論文レビュー] musicnn: Pre-trained convolutional neural networks for music audio tagging
本論文では、音楽的な動機づけを持つ事前学習済みのCNN(musicnn)による音楽タグ付け、VGG風のベースライン、MagnaTagATuneとMillion Song Datasetでの訓練、タグ付け・特徴抽出・転移学習の機能を提供します。
Pronounced as "musician", the musicnn library contains a set of pre-trained musically motivated convolutional neural networks for music audio tagging: https://github.com/jordipons/musicnn. This repository also includes some pre-trained vgg-like baselines. These models can be used as out-of-the-box music audio taggers, as music feature extractors, or as pre-trained models for transfer learning. We also provide the code to train the aforementioned models: https://github.com/jordipons/musicnn-training. This framework also allows implementing novel models. For example, a musically motivated convolutional neural network with an attention-based output layer (instead of the temporal pooling layer) can achieve state-of-the-art results for music audio tagging: 90.77 ROC-AUC / 38.61 PR-AUC on the MagnaTagATune dataset --- and 88.81 ROC-AUC / 31.51 PR-AUC on the Million Song Dataset.
研究の動機と目的
- 音楽的に動機づけられたCNNを音楽タグ付けのために公開する。
- 箱から出して使えるタグ付けと特徴抽出機能を提供する。
- 事前学習済み埋め込みを用いた下流タスクの転移学習を可能にする。
- 比較のためのVGG風ベースラインと再現性のための訓練フレームワークを提供する。
提案手法
- MagnaTagATune (MTT) および Million Song Dataset (MSD) で音楽的動機づけCNNs(musicnn)を訓練する。
- より多くのデータを活用するために大規模な MSD ベースのモデル(MSD_musicnn_big)を提供する。
- 比較のためのVGG風ベースラインモデルを提供する(MTT_vgg, MSD_vgg)。
- トップタグ付けユーティリティとテンポラル/タイムル、CNN特徴を返す特徴抽出器を公開する。
- 事前抽出特徴に対するPCAステップを伴うSVM分類器を用いた転移学習を実証する。
- 再現性のために訓練コードとアーキテクチャの詳細を公開する。
実験結果
リサーチクエスチョン
- RQ1事前学習済みのmusicnnとvggモデルは MagnaTagATune と MSD のデータセット上で最先端のタグ付けを達成できるか。
- RQ2musicnnベースの埋め込みは他の音声表現と比較して転移学習の特徴量としてどのように機能するか。
- RQ3MTT と MSD で訓練したモデルの比較性能と MSD におけるモデルサイズの影響はどうなるか。
- RQ4注意機構を用いた variantes は標準の musicnn/VGG アーキテクチャと比べてタグ付け性能を改善できるか。
主な発見
| Model | Dataset | ROC-AUC | PR-AUC |
|---|---|---|---|
| MTT_musicnn | MagnaTagATune | 90.69 | 38.44 |
| MTT_vgg | MagnaTagATune | 90.26 | 38.19 |
| MSD_musicnn | Million Song Dataset | 88.01 | 28.90 |
| MSD_musicnn_big | Million Song Dataset | 88.41 | 30.02 |
| MSD_vgg | Million Song Dataset | 87.67 | 28.19 |
| MTT_musicnn_attention | MagnaTagATune (attention variant) | 90.77 | 38.61 |
| MSD_musicnn_attention | Million Song Dataset (attention variant) | 88.81 | 31.51 |
- MTT_musicnn は MagnaTagATune で 90.69 ROC-AUC、38.44 PR-AUC を達成。
- MTT_vgg は MagnaTagATune で 90.26 ROC-AUC、38.19 PR-AUC を達成。
- MSD_musicnn は MSD で 88.01 ROC-AUC、28.90 PR-AUC を達成。
- MSD_musicnn_big は MSD で 88.41 ROC-AUC、30.02 PR-AUC を達成。
- MSD_vgg は MSD で 87.67 ROC-AUC、28.19 PR-AUC を達成。
- 注意機構ベースの Variante は MagnaTagATune で 90.77 ROC-AUC、38.61 PR-AUC、MSD で 88.81 ROC-AUC、31.51 PR-AUC と報告されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。