QUICK REVIEW

[论文解读] Sample-level Deep Convolutional Neural Networks for Music Auto-tagging Using Raw Waveforms

Jongpil Lee, Ji Young Park|arXiv (Cornell University)|Mar 6, 2017

Music and Audio Processing参考文献 17被引用 104

一句话总结

该论文提出在原始波形上操作的样本级别DCNNs用于音乐自动标注，在MTAT和MSD上达到与基于mel-spectrogram的方法相当的结果，且探索了深层结构（10层以上）与较小的第一层卷积核。

ABSTRACT

Recently, the end-to-end approach that learns hierarchical representations from raw data using deep convolutional neural networks has been successfully explored in the image, text and speech domains. This approach was applied to musical signals as well but has been not fully explored yet. To this end, we propose sample-level deep convolutional neural networks which learn representations from very small grains of waveforms (e.g. 2 or 3 samples) beyond typical frame-level input representations. Our experiments show how deep architectures with sample-level filters improve the accuracy in music auto-tagging and they provide results comparable to previous state-of-the-art performances for the Magnatagatune dataset and Million Song Dataset. In addition, we visualize filters learned in a sample-level DCNN in each layer to identify hierarchically learned features and show that they are sensitive to log-scaled frequency along layer, such as mel-frequency spectrogram that is widely used in music classification systems.

研究动机与目标

动机：直接從原始波形进行音乐自动标注的端到端学习，以解决对数振幅压缩和相位不变性的问题。
引入并评估使用非常小的第一层滤波器且增加深度以学习分层音频表征的样本级别DCNNs。
将样本级原始波形DCNNs与帧级mel-spectrogram和帧级原始波形基线及先前的最先进结果进行比较。
证明从原始波形学习的更深层架构（超过10层）可以实现具有竞争力的性能，并可视化跨层学习到的滤波器。

提出的方法

引入三种CNN模型配置：帧级mel-spectrogram、帧级原始波形和样本级原始波形DCNN。
用多个小滤波器、最大池化模块替换底层处理以实现样本级粒度（小至2-3个样本）和更深的网络。
系统地改变第一层滤波长度和步幅（2-3个样本）以及深度（m^n，m ∈ {2,3,4,5}，n 最大到9–13）以研究对AUC的影响。
使用sigmoid输出和二元交叉熵损失进行训练，采用批量归一化和ReLU，在最后一个卷积层使用 dropout，使用带Nesterov动量的SGD及学习率调度。
在MagnaTagATune（MTAT）和Million Song Dataset（MSD）上评估，使用经过裁剪的29.1秒歌曲，采样率22.05 kHz，以AUC作为主要指标。
通过基于梯度上升的激活最大化可视化学习到的滤波器，以展示跨层的分层频谱特征。

实验结果

研究问题

RQ1端到端的样本级别DCNNs在原始波形上训练，是否能够达到与基于mel-spectrogram的方法相竞争的自动标注性能？
RQ2在MTAT和MSD上，使用小的第一层滤波器增加深度是否会提高音乐自动标注的性能？
RQ3在原始波形上训练时，跨层学习到的滤波器有哪些特征，它们与频率表示有何关系？
RQ4输入片段长度和第一层步幅如何影响样本级DCNN的性能？

主要发现

模型	MTAT AUC	MSD AUC
Sample-level DCNN (3^9 model, 59049 samples input)	0.9055	0.8812

具有非常小第一层滤波器（最小到2-3个样本）并且更深的样本级DCNN在MTAT上使用59049样本输入可达到AUC最高0.9055，与最先进的mel-spectrogram结果相当。
对于MTAT，最佳的m^n配置为 m=3、n=9，在不同输入尺寸上均表现出色，且显示出深度带来的益处。
在MSD上，增加第一卷积层的滤波器数量可提升性能，模型达到0.8812 AUC。
与帧级mel-spectrogram模型相比，样本级原始波形DCNNs取得相当的结果，而帧级原始波形模型若深度和表达能力不足则表现不佳。
学习到的滤波器可视化显示跨层逐渐更高中心频率的带，指示出层级的、对频率有感知的表示，类似于mel尺度趋势。
样本级方法表明，使用小的时域过滤器的更深网络可以有效地从原始波形中学习多声部音乐表示。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。