QUICK REVIEW

[论文解读] Acoustic scene classification using convolutional neural network and multiple-width frequency-delta data augmentation

Yoonchang Han, Kyogu Lee|arXiv (Cornell University)|Jul 8, 2016

Music and Audio Processing参考文献 25被引用 35

一句话总结

本文提出一种基于卷积神经网络（ConvNet）的声学场景分类框架，采用多宽度频带差分（MWFD）数据增强和折叠平均聚合方法，以提升在DCASE 2016数据集上的性能。通过将静态梅尔频谱图和不同宽度的频带差分特征作为独立输入样本，并利用乘法聚合方式融合其预测结果，该方法在15类声学场景分类任务中实现了0.831的最先进准确率，较基线系统和标准深度神经网络高出约7%。

ABSTRACT

In recent years, neural network approaches have shown superior performance to conventional hand-made features in numerous application areas. In particular, convolutional neural networks (ConvNets) exploit spatially local correlations across input data to improve the performance of audio processing tasks, such as speech recognition, musical chord recognition, and onset detection. Here we apply ConvNet to acoustic scene classification, and show that the error rate can be further decreased by using delta features in the frequency domain. We propose a multiple-width frequency-delta (MWFD) data augmentation method that uses static mel-spectrogram and frequency-delta features as individual input examples. In addition, we describe a ConvNet output aggregation method designed for MWFD augmentation, folded mean aggregation, which combines output probabilities of static and MWFD features from the same analysis window using multiplication first, rather than taking an average of all output probabilities. We describe calculation results using the DCASE 2016 challenge dataset, which shows that ConvNet outperforms both of the baseline system with hand-crafted features and a deep neural network approach by around 7%. The performance was further improved (by 5.7%) using the MWFD augmentation together with folded mean aggregation. The system exhibited a classification accuracy of 0.831 when classifying 15 acoustic scenes.

研究动机与目标

通过深度学习，特别是卷积神经网络（ConvNets）提升声学场景分类（ASC）性能，此类方法在相关音频任务中已展现出优异表现。
通过引入一种新颖的数据增强策略，利用多宽度频带差分特征增强特征表示，以应对ASC中泛化能力与鲁棒性不足的挑战。
开发一种高效的输出聚合方法，整合来自多种输入类型（静态特征与差分特征）的预测结果，以提升片段级分类准确率。
在DCASE 2016基准数据集上验证所提方法的有效性，该数据集相较于以往ASC挑战具有更大且更丰富的训练集。

提出的方法

系统采用包含八个卷积层和漏失修正线性单元（Leaky ReLU）激活函数的ConvNet架构，每对卷积层后均接最大池化层。
输入数据由静态梅尔频谱图和多宽度频带差分特征构成，其中差分特征通过在不同窗口大小的频率带内计算获得。
MWFD数据增强将每个静态特征与差分特征视为独立输入样本并赋予相同标签，从而在不改变网络架构的前提下提升训练多样性。
提出一种新型输出聚合方法——折叠平均聚合，通过先相乘后平均的方式结合各分析窗口的输出概率，以保留不同输入类型间的判别性模式。
在DCASE 2016数据集上采用五折交叉验证，对超参数进行调优以实现最优性能。
使用t-SNE可视化分析特征学习的演进过程，结果表明通过深层卷积层后类别可分性显著提升，第四层块后已出现有意义的聚类。

实验结果

研究问题

RQ1基于ConvNet的方法是否能在声学场景分类任务中超越传统手工设计特征系统？
RQ2将多宽度频带差分特征作为增强输入是否能提升分类准确率，使其超越仅使用静态梅尔频谱图的效果？
RQ3与简单平均相比，乘法聚合策略（折叠平均）是否能更有效地融合静态特征与差分特征的预测结果？
RQ4与DCASE 2013等先前基准相比，该方法在更大的DCASE 2016数据集上的表现如何？
RQ5使用频带差分特征进行数据增强在多大程度上可缓解因训练数据有限导致的性能下降？

主要发现

所提出的ConvNet系统在DCASE 2016数据集上实现了0.778的平均分类准确率，优于使用MFFCs和GMMs的基线系统。
仅使用MWFD数据增强即可将准确率提升至0.820，相较于原始ConvNet有显著性能提升。
MWFD增强与折叠平均聚合相结合，最终在15类声学场景分类任务中达到0.831的准确率。
MWFD增强带来的性能增益在更大数据集上最为显著，表明其有效性在充足训练数据条件下进一步增强。
t-SNE可视化结果证实，随着网络深度增加，特征表示的可分性逐步提升，第四层块后已出现清晰的聚类结构。
该方法展现出良好的鲁棒性与泛化能力，即使在小规模数据子集上，标准差也仅略有下降，表明其在数据稀缺条件下的稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。