[论文解读] Device-Robust Acoustic Scene Classification Based on Two-Stage Categorization and Data Augmentation
该论文提出一个基于两阶段CNN的ASC系统,通过广泛的数据增强来应对设备不一致(Task 1a),并应用后训练量化来为Task 1b构建小型模型,在开发数据上分别达到81.9%和96.7%的准确率。
In this technical report, we present a joint effort of four groups, namely GT, USTC, Tencent, and UKE, to tackle Task 1 - Acoustic Scene Classification (ASC) in the DCASE 2020 Challenge. Task 1 comprises two different sub-tasks: (i) Task 1a focuses on ASC of audio signals recorded with multiple (real and simulated) devices into ten different fine-grained classes, and (ii) Task 1b concerns with classification of data into three higher-level classes using low-complexity solutions. For Task 1a, we propose a novel two-stage ASC system leveraging upon ad-hoc score combination of two convolutional neural networks (CNNs), classifying the acoustic input according to three classes, and then ten classes, respectively. Four different CNN-based architectures are explored to implement the two-stage classifiers, and several data augmentation techniques are also investigated. For Task 1b, we leverage upon a quantization method to reduce the complexity of two of our top-accuracy three-classes CNN-based architectures. On Task 1a development data set, an ASC accuracy of 76.9\% is attained using our best single classifier and data augmentation. An accuracy of 81.9\% is then attained by a final model fusion of our two-stage ASC classifiers. On Task 1b development data set, we achieve an accuracy of 96.7\% with a model size smaller than 500KB. Code is available: https://github.com/MihawkHu/DCASE2020_task1.
研究动机与目标
- 通过构建一个设备不变的两阶段分类器(将三类CNN与十类CNN结合),解决声学场景分类中的设备不匹配问题(Task 1a)。
- 利用量化和模型压缩在Task 1b中开发一个低复杂度ASC模型(≤500 KB),在不显著损失性能的前提下。
- 评估多种CNN结构和数据增强策略,以提升跨设备的鲁棒性。
- 证明模型集成能够进一步提升ASC性能,相较于单一模型的结果。
提出的方法
- 两阶段分类:首先是一个三类分类器(indoor、outdoor、transportation),其次是一个十类分类器;最终类别通过对两个输出的分数融合来选择。
- 评估的五种基于CNN的架构:FCNN、fsFCNN、fsFCNN-split、Resnet(17层,带修改,当滤波器翻倍时命名为Resnet-d)、Mobnet(MobileNet-v2)。
- 广泛的数据增强:mixup、随机裁剪、频谱增强、频谱校正、混响+DRC、音调移位、速度变化、随机噪声以及混合音频;通道混淆仅用于Task 1b。
- Task 1b:后训练量化(动态范围量化到8位)将模型大小降至约1/8,同时维持准确性;使用多个较小模型的集成以保持在500 KB以下。
- 特征提取:log-mel filter banks (LMFB) with 2048-point FFT, 2048-s window, 1024 frame shift; LMFBs scaled to [0,1] and augmented with LMFB deltas; input shapes 423x128x3 (Task 1a) and 461x128x6 (Task 1b).
- 训练:使用带余弦退火重启的学习率调度的SGD;Task 1a与Task 1b使用官方的训练-测试划分;Keras实现;开发数据用于最终提交。
实验结果
研究问题
- RQ1通过将粗粒度三类预测与细粒度十类预测结合,基于两阶段的CNN ASC系统是否能够提高Task 1a对设备不匹配的鲁棒性?
- RQ2不同的CNN架构(FCNN、fsFCNN、Resnet-d、Mobnet)如何与数据增强交互,以缓解设备引起的性能下降?
- RQ3包括频谱增强、频谱校正、混响+DRC、以及mixup在内的数据增强策略,对已见设备和未见设备的ASC准确性有何影响?
- RQ4后训练量化是否能够在Task 1b实现子500 KB的ASC模型且实现最小精度损失,模型集成是否能够进一步提升结果?
主要发现
- 多模型的两阶段融合在Task 1a开发数据上达到81.9%的ASC准确率(最佳模型融合)。
- 基于FCNN的集合在单独评估中达到76.9%的准确率,结合FCNN与fsFCNN变体并采用两阶段方法后达到81.9%。
- 应用广泛的数据增强(包括混响、DRC、频谱增强和mixup)显著提升鲁棒性,对未见设备(s4–s6)有显著改进。
- Task 1b结果显示Mobnet和small-FCNN在压缩前分别达到95.2%和96.4%的准确率;动态范围量化将尺寸降至约1/8,同时保持微小的准确率损失(Mobnet下降0.4%;small-FCNN下降0.1%)。
- 最终提交使用多模型集成以超越单模型性能,在Task 1a达到81.9%,在Task 1b开发数据达到96.7%。
- Task 1a的四个最终提交涉及使用Resnet-d、以FC为基础的网络以及带注意力和数据策略的fsFCNN变体的集合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。