QUICK REVIEW

[论文解读] Device-Robust Acoustic Scene Classification Based on Two-Stage Categorization and Data Augmentation

Hu Hu, Chao-Han Huck Yang|arXiv (Cornell University)|Jul 16, 2020

Music and Audio Processing参考文献 11被引用 46

一句话总结

该论文提出一个基于两阶段CNN的ASC系统，通过广泛的数据增强来应对设备不一致（Task 1a），并应用后训练量化来为Task 1b构建小型模型，在开发数据上分别达到81.9%和96.7%的准确率。

ABSTRACT

In this technical report, we present a joint effort of four groups, namely GT, USTC, Tencent, and UKE, to tackle Task 1 - Acoustic Scene Classification (ASC) in the DCASE 2020 Challenge. Task 1 comprises two different sub-tasks: (i) Task 1a focuses on ASC of audio signals recorded with multiple (real and simulated) devices into ten different fine-grained classes, and (ii) Task 1b concerns with classification of data into three higher-level classes using low-complexity solutions. For Task 1a, we propose a novel two-stage ASC system leveraging upon ad-hoc score combination of two convolutional neural networks (CNNs), classifying the acoustic input according to three classes, and then ten classes, respectively. Four different CNN-based architectures are explored to implement the two-stage classifiers, and several data augmentation techniques are also investigated. For Task 1b, we leverage upon a quantization method to reduce the complexity of two of our top-accuracy three-classes CNN-based architectures. On Task 1a development data set, an ASC accuracy of 76.9\% is attained using our best single classifier and data augmentation. An accuracy of 81.9\% is then attained by a final model fusion of our two-stage ASC classifiers. On Task 1b development data set, we achieve an accuracy of 96.7\% with a model size smaller than 500KB. Code is available: https://github.com/MihawkHu/DCASE2020_task1.

研究动机与目标

通过构建一个设备不变的两阶段分类器（将三类CNN与十类CNN结合），解决声学场景分类中的设备不匹配问题（Task 1a）。
利用量化和模型压缩在Task 1b中开发一个低复杂度ASC模型（≤500 KB），在不显著损失性能的前提下。
评估多种CNN结构和数据增强策略，以提升跨设备的鲁棒性。
证明模型集成能够进一步提升ASC性能，相较于单一模型的结果。

提出的方法

两阶段分类：首先是一个三类分类器（indoor、outdoor、transportation），其次是一个十类分类器；最终类别通过对两个输出的分数融合来选择。
评估的五种基于CNN的架构：FCNN、fsFCNN、fsFCNN-split、Resnet（17层，带修改，当滤波器翻倍时命名为Resnet-d）、Mobnet（MobileNet-v2）。
广泛的数据增强：mixup、随机裁剪、频谱增强、频谱校正、混响+DRC、音调移位、速度变化、随机噪声以及混合音频；通道混淆仅用于Task 1b。
Task 1b：后训练量化（动态范围量化到8位）将模型大小降至约1/8，同时维持准确性；使用多个较小模型的集成以保持在500 KB以下。
特征提取：log-mel filter banks (LMFB) with 2048-point FFT, 2048-s window, 1024 frame shift; LMFBs scaled to [0,1] and augmented with LMFB deltas; input shapes 423x128x3 (Task 1a) and 461x128x6 (Task 1b).
训练：使用带余弦退火重启的学习率调度的SGD；Task 1a与Task 1b使用官方的训练-测试划分；Keras实现；开发数据用于最终提交。

实验结果

研究问题

RQ1通过将粗粒度三类预测与细粒度十类预测结合，基于两阶段的CNN ASC系统是否能够提高Task 1a对设备不匹配的鲁棒性？
RQ2不同的CNN架构（FCNN、fsFCNN、Resnet-d、Mobnet）如何与数据增强交互，以缓解设备引起的性能下降？
RQ3包括频谱增强、频谱校正、混响+DRC、以及mixup在内的数据增强策略，对已见设备和未见设备的ASC准确性有何影响？
RQ4后训练量化是否能够在Task 1b实现子500 KB的ASC模型且实现最小精度损失，模型集成是否能够进一步提升结果？

主要发现

多模型的两阶段融合在Task 1a开发数据上达到81.9%的ASC准确率（最佳模型融合）。
基于FCNN的集合在单独评估中达到76.9%的准确率，结合FCNN与fsFCNN变体并采用两阶段方法后达到81.9%。
应用广泛的数据增强（包括混响、DRC、频谱增强和mixup）显著提升鲁棒性，对未见设备（s4–s6）有显著改进。
Task 1b结果显示Mobnet和small-FCNN在压缩前分别达到95.2%和96.4%的准确率；动态范围量化将尺寸降至约1/8，同时保持微小的准确率损失（Mobnet下降0.4%；small-FCNN下降0.1%）。
最终提交使用多模型集成以超越单模型性能，在Task 1a达到81.9%，在Task 1b开发数据达到96.7%。
Task 1a的四个最终提交涉及使用Resnet-d、以FC为基础的网络以及带注意力和数据策略的fsFCNN变体的集合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。