Skip to main content
QUICK REVIEW

[论文解读] Acoustic scene classification in DCASE 2020 Challenge: generalization across devices and low complexity solutions

Toni Heittola, Annamaria Mesaros|arXiv (Cornell University)|May 29, 2020
Music and Audio Processing参考文献 18被引用 40
一句话总结

本文分析了 DCASE 2020 Task 1,包含两个子任务:用于声学场景分类的跨设备泛化与低复杂度模型,并给出数据集、基线和顶尖系统。

ABSTRACT

This paper presents the details of Task 1: Acoustic Scene Classification in the DCASE 2020 Challenge. The task consists of two subtasks: classification of data from multiple devices, requiring good generalization properties, and classification using low-complexity solutions. Here we describe the datasets and baseline systems. After the challenge submission deadline, challenge results and analysis of the submissions will be added.

研究动机与目标

  • 在包括未见设备在内的多设备上调查 ASC 模型的泛化能力。
  • 在严格的大小限制内开发与评估低复杂度 ASC 模型。
  • 分析并比较数据增强、量化/剪枝策略作为关键技术。

提出的方法

  • 为 Subtask A 引入带有真实设备和仿真设备的 TAU Urban Acoustic Scenes 2020 Mobile 数据集。
  • 对 Subtask A 基线使用 Open L3 嵌入与 CNN/MLP 基线。
  • 对 Subtask B 设置 500 KB 的模型大小限制,并探索精简模型、剪枝和量化。
  • 使用宏平均准确率和多类交叉熵(对数损失)评估提交。
  • 报告表现最好的系统和常见技术,如数据增强和后训练量化。

实验结果

研究问题

  • RQ1 ASC 模型在包括未见设备在内的大量设备上泛化能力如何?
  • RQ2在严格的大小约束下,哪些低复杂度建模技术能在维持高精度的同时实现?
  • RQ3哪些数据增强和量化策略最有效地应对设备不匹配与资源限制?

主要发现

系统#准确率对数损失大小参数权重备注
Koutini_CPJKU_2196.5 %0.10483.5 KB345kfloat16pruning, post-training quantization
Hu_GT_3396.0 %0.12490.0 KB122kint8post-training quantization
McDonnell_USA_3495.9 %0.11486.7 KB3M1-bit
Suh_ETRI_31195.1 %0.27413.0 KB207kfloat16sparse connectivity models, ensemble
Chang_QTI_11295.0 %0.22491.2 KB601kfloat16pruning, weight sharing across layers
Wu_CUHK_41494.9 %0.21299.3 KB153kfloat16depth-wise separable CNN
Lee_CAU_22393.9 %0.15494.2 KB126kfloat32slim model
Naranjo-Alcazar_Vfy_12493.6 %0.20496.3 KB127kfloat32slim model
Kwiatkowska_SRPOL_22793.5 %0.16421.0 KB107kfloat32depth-wise separable CNN, ensemble
Yang_UESTC_32693.5 %0.22258.0 KB119kfloat16slim model
Baseline-89.5 %0.40450.1 KB115kfloat32slim model
  • 子任务 A 在评估集上达到最高 76.5% 的准确率,基线为 51.4%。
  • 子任务 B 在 500 KB 模型大小限制下最高达到 96.5% 的准确率(基线 89.5%)。
  • 数据增强是子任务 A 中实现设备泛化的主导技术。
  • 后训练量化和其他模型压缩技术使许多提交达到子任务 B 的限制。
  • 若干顶尖系统是集成模型或基于 CNN 的,具有 ResNet 或注意力启发式结构。
  • 未见设备显著挑战准确性,但许多方案在见/未见设备上保持强泛化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。