QUICK REVIEW

[論文レビュー] Music Genre Classification using Machine Learning Techniques

Hareesh Bahuleyan|arXiv (Cornell University)|Apr 3, 2018

Music and Audio Processing参考文献 23被引用数 47

ひとこと要約

この論文はCNNベースのスペクトログラム分類を従来の手作り特徴量と比較し、AudioSet上でVGG-16転移学習とXGBoostのアンサンブルが最高のAUC0.894を達成したことを示している。

ABSTRACT

Categorizing music files according to their genre is a challenging task in the area of music information retrieval (MIR). In this study, we compare the performance of two classes of models. The first is a deep learning approach wherein a CNN model is trained end-to-end, to predict the genre label of an audio signal, solely using its spectrogram. The second approach utilizes hand-crafted features, both from the time domain and the frequency domain. We train four traditional machine learning classifiers with these features and compare their performance. The features that contribute the most towards this multi-class classification task are identified. The experiments are conducted on the Audio set data set and we report an AUC value of 0.894 for an ensemble classifier which combines the two proposed approaches.

研究の動機と目的

大規模なライブラリやストリーミングサービス向けの自動音楽ジャンルタグ付けを動機づける。
スペクトログラムを用いたエンドツーエンドのCNNアプローチを従来の特徴ベースの分類器と比較する。
ジャンル分類に寄与する最も重要な特徴を特定する。
AudioSetデータセットでの性能を評価し、特徴重要度を分析する。

提案手法

MELスペクトログラムに音声を変換し、転移学習またはファインチューニングを用いたVGG-16ベースのCNNに入力する。
librosaを用いて時間領・周波数領の手作り特徴を抽出し、従来の分類器（LR、RF、SVM、XGB）を訓練する。
Flattenedなスペクトログラム上でベースラインのフィードフォワードネットワークを訓練する。
過学習を抑制するためにL2正則化とドロップアウトを用いてニューラルネットを正则化する。
90/5/5の訓練/検証/テスト分割で、精度、F値、AUCでモデルを評価する。
予測確率を平均することで、最良のCNN（VGG-16 TL）と最良の特徴ベースモデル（XGB）をアンサンブルする。

実験結果

リサーチクエスチョン

RQ1スペクトログラムベースのCNNは従来の手法より高いジャンル分類性能を達成できるか？
RQ2どの手作り特徴が音楽ジャンル分類性能に最も寄与するか？
RQ3CNNベースと特徴ベースモデルのエンサンブルはAudioSetで全体性能を向上させるか？

主な発見

Model	Accuracy	F-score	AUC
VGG-16 CNN Transfer Learning	0.63	0.61	0.891
VGG-16 CNN Fine Tuning	0.64	0.61	0.889
Feed-forward NN baseline	0.43	0.33	0.759
Logistic Regression (LR)	0.53	0.47	0.822
Random Forest (RF)	0.54	0.48	0.840
Support Vector Machines (SVM)	0.57	0.52	0.856
Extreme Gradient Boosting (XGB)	0.59	0.55	0.865
VGG-16 CNN + XGB Ensemble	0.65	0.62	0.894

スペクトログラムだけを用いたVGG-16 CNNが単一モデルの中で最高の指標を示した（Accuracy 0.63, F-score 0.61, AUC 0.891は転移学習; 0.64, 0.61, 0.889はファインチューニング）。
特徴ベースモデルの中ではSVM (0.57/0.52/0.856) とXGB (0.59/0.55/0.865) がLRとRFを上回る。
VGG-16 CNNとXGBoostのアンサンブルは全体の最高AUC0.894とAccuracy0.65、F-score0.62を達成。
MFCCsはトップ特徴の1つで、スペクトルコントラストの平均/標準偏差とテンポも重要。
トップ10、20、30、97特徴を使用すると、わずか30特徴でも良好な性能を示す（AUC0.845、Accuracy0.55が全特徴セット（AUC0.865、Accuracy0.59）に迫る）。
周波数領域の特徴はこのタスクで時間領域の特徴より優れており、両方を組み合わせると最良の結果を得る（AUC0.865、Accuracy0.59）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。