QUICK REVIEW

[論文レビュー] End-to-end learning for music audio tagging at scale

Jordi Pons, Oriol Nieto|arXiv (Cornell University)|Nov 7, 2017

Music and Audio Processing参考文献 19被引用数 82

ひとこと要約

本論文は、データセットが大きくなるにつれて音楽自動タグ付けのためのエンドツーエンド波形ベースモデルとドメイン知識を用いたスペクトログラムベースモデルを比較し、大規模データ（100万曲）で学習した場合、波形モデルがスペクトログラムモデルを上回ることを示している。

ABSTRACT

The lack of data tends to limit the outcomes of deep learning research, particularly when dealing with end-to-end learning stacks processing raw data such as waveforms. In this study, 1.2M tracks annotated with musical labels are available to train our end-to-end models. This large amount of data allows us to unrestrictedly explore two different design paradigms for music auto-tagging: assumption-free models - using waveforms as input with very small convolutional filters; and models that rely on domain knowledge - log-mel spectrograms with a convolutional neural network designed to learn timbral and temporal features. Our work focuses on studying how these two types of deep architectures perform when datasets of variable size are available for training: the MagnaTagATune (25k songs), the Million Song Dataset (240k songs), and a private dataset of 1.2M songs. Our experiments suggest that music domain assumptions are relevant when not enough training data are available, thus showing how waveform-based models outperform spectrogram-based ones in large-scale data scenarios.

研究の動機と目的

生の音声データまたはスペクトログラム表現から学習して、大規模な音楽コレクションの自動タグ付けを促進する。
仮定なしの波形ベースのモデルと、対数メルスペクトログラムベースの、ドメイン知識主導モデルの二つの設計パラダイムを比較する。
複数の公開データセット/非公開データセットにまたがる学習データ量の拡大に伴う性能評価。
大規模データ時代において、ドメイン知識の制約が学習を制限するかを評価する。

提案手法

2つのフロントエンドを定義する。波形（サンプルレベル、小さな1Dフィルタ）とスペクトログラム（log-mel、縦横に多数のフィルタ）フロントエンド。
共有バックエンドを使用：残差付きの3つの1D-CNN層、時系列プーリング、密な出力；グローバルプーリングにより可変長入力を可能にする。
15秒パッチでエンドツーエンド訓練；曲全体の予測はパッチ予測の平均で行う。
ROC-AUCとPR-AUCをタグ分類、RMSEを回帰様のタグに対してデータセット全体で評価する。
エンドツーエンドの利点を評価するため、特徴抽出 + 勾配ブースティング木のベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1データ規模の異なる状況で、波形ベースのエンドツーエンドモデルは音楽自動タグ付けでスペクトログラムベースのモデルとどう比較されるか。
RQ2大規模な学習データを利用することで、ドメイン知識に基づくアーキテクチャ制約の必要性は低下するか。
RQ3データセットを横断した場合、各フロントエンド（波形 vs. スペクトログラム）の学習データ量の規模がモデル性能に与える影響はどうなるか。
RQ4データが豊富な場合、波形モデルは最先端のスペクトログラムモデルに匹敵するか、それを上回ることができるか。

主な発見

モデル	サイズ	ROC-AUC	PR-AUC	sqrt(MSE)
Baseline	1.2M	91.61%	54.27%	0.1569
Waveform	1M	92.50%	61.20%	0.1465
Spectrogram	1M	92.17%	59.92%	0.1473
Waveform	500k	91.16%	56.42%	0.1504
Spectrogram	500k	91.61%	58.18%	0.1493
Waveform	100k	90.27%	52.76%	0.1554
Spectrogram	100k	90.14%	52.67%	0.1542

1.2M曲において、波形モデルはROC-AUC、PR-AUC、RMSEでスペクトログラムモデルを上回り、ベースラインの特徴量ベースシステムに勝っている。
学習曲数が1Mのとき、波形モデルは最高のROC-AUC（92.50%）とPR-AUC（61.20%）を達成し、スペクトログラムモデル（ROC-AUC 92.17%、PR-AUC 59.92%）を上回る。
100kまたは500k曲で訓練すると、スペクトログラムモデルが同等またはわずかに上回る。データが限られた場合にはドメイン知識の利点を示す。
1.2M、1M、500k、100kのスケール全体で、波形モデルはデータスケーリングの利得が大きく、より多くのデータでより自由度の高い解空間が有利であることを示唆する。
データが小さい場合、スペクトログラムモデルはMSDで最先端の結果に一致するが、大規模データでは波形モデルが優れた性能に達する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。