QUICK REVIEW

[论文解读] Raw Waveform-based Audio Classification Using Sample-level CNN Architectures

Jongpil Lee, Tae‐Jun Kim|arXiv (Cornell University)|Dec 4, 2017

Music and Audio Processing被引用 45

一句话总结

本文提出 SampleCNN 和 ReSE-2-Multi 两种端到端深度卷积神经网络架构，通过使用小尺寸的样本级卷积核直接处理原始音频波形，在音乐自动标注、语音命令识别和声学场景分类任务中均实现了最先进性能。这些模型利用小感受野、残差连接、挤压-激励模块以及多层级特征拼接，直接从波形中学习分层表征，无需频谱图预处理。

ABSTRACT

Music, speech, and acoustic scene sound are often handled separately in the audio domain because of their different signal characteristics. However, as the image domain grows rapidly by versatile image classification models, it is necessary to study extensible classification models in the audio domain as well. In this study, we approach this problem using two types of sample-level deep convolutional neural networks that take raw waveforms as input and uses filters with small granularity. One is a basic model that consists of convolution and pooling layers. The other is an improved model that additionally has residual connections, squeeze-and-excitation modules and multi-level concatenation. We show that the sample-level models reach state-of-the-art performance levels for the three different categories of sound. Also, we visualize the filters along layers and compare the characteristics of learned filters.

研究动机与目标

开发端到端深度学习模型，直接对原始音频波形进行分类，无需基于频谱图的特征工程。
探究小尺寸、样本级卷积核是否能有效学习跨多样化音频领域的判别性音频表征。
通过残差连接、挤压-激励模块以及多层级特征融合提升模型性能。
可视化并分析网络中学习到的滤波器在不同音频特性（音乐、语音和环境声音）下的响应差异。
在保持预处理一致的前提下，评估基于波形的模型在多个音频分类基准上的泛化能力。

提出的方法

提出 SampleCNN，一种使用小尺寸（1样本）卷积核、批量归一化和最大池化层的1D-CNN，专为原始波形输入设计。
通过引入残差连接，将 SampleCNN 扩展为 ReSE-2-Multi，以支持更深网络的训练。
集成挤压-激励（SE）模块，利用全局平均池化和可学习门控机制重新校准特征图。
应用多层级特征拼接，融合不同抽象层级的表征，以提升分类性能。
采用基于梯度上升的激活最大化方法，可视化网络各层中学习到的滤波器在频域中的响应。
将所有数据集重采样至 16,000Hz 以保证跨领域一致性，同时根据数据集调整输入尺寸和块数。

实验结果

研究问题

RQ1小尺寸、样本级的1D卷积核能否有效从原始波形中学习判别性音频表征？
RQ2网络中学习到的滤波器在音乐、语音和声学场景数据集之间有何差异？
RQ3残差连接与挤压-激励模块在基于原始波形的音频分类任务中能在多大程度上提升性能？
RQ4多层级特征拼接对多样化音频领域分类准确率的影响如何？
RQ5单一基于波形的模型是否能在无需任务特定特征工程的前提下，在多个音频分类任务中实现有竞争力的性能？

主要发现

ReSE-2-Multi 在 MagnaTagATune 音乐自动标注数据集上实现了 0.9091 的 AUC，优于先前方法，达到最先进水平。
该模型在语音命令数据集上达到 86% 的准确率，接近最先进水平（88%）。
在 DCASE 2017 Task 4 声学场景标注基准中，ReSE-2-Multi 实现了 45.1% 的 F-score（基于实例），优于未使用数据平衡或集成的基线 CRNN 模型。
滤波器可视化显示，模型学习到了类似梅尔频谱图的对数频率敏感度，音乐数据中的低频滤波器更多。
声学场景声音的滤波器在低频区域更集中，且模式更简单，与数据集中存在的简单交通声和警告声一致。
本研究证明，采用小尺寸滤波器的原始波形模型可在音乐、语音和环境声音领域间实现良好泛化，且仅需极少预处理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。