QUICK REVIEW

[论文解读] Integrating the Data Augmentation Scheme with Various Classifiers for Acoustic Scene Modeling

Hangting Chen, Zuozhen Liu|arXiv (Cornell University)|Jul 15, 2019

Music and Audio Processing参考文献 12被引用 67

一句话总结

本文提出一个基于 GAN 的数据增强框架（ACGAN 和 CVAE/ACGAN），结合多种 ASC 分类器（FBank-FCNN、Scalogram-DCNN，以及混合模型）和集成投票，在 DCASE2019 Task1A fold-1 上达到超过 85% 的准确率。

ABSTRACT

This technical report describes the IOA team's submission for TASK1A of DCASE2019 challenge. Our acoustic scene classification (ASC) system adopts a data augmentation scheme employing generative adversary networks. Two major classifiers, 1D deep convolutional neural network integrated with scalogram features and 2D fully convolutional neural network integrated with Mel filter bank features, are deployed in the scheme. Other approaches, such as adversary city adaptation, temporal module based on discrete cosine transform and hybrid architectures, have been developed for further fusion. The results of our experiments indicates that the final fusion systems A-D could achieve an accuracy higher than 85% on the officially provided fold 1 evaluation dataset.

研究动机与目标

在域迁移（如看不见的城市）下利用数据增强推动鲁棒的声学场景分类（ASC）。
开发并比较使用不同特征表示（Mel 滤波器组、尺度图）和架构（1D DCNN、2D FCNN、基于 Inception 的混合模型）的 ASC 分类器。
演示融合/集成策略以提升最终的 ASC 性能。
评估基于辅助 GAN 的扩增（ACGAN、CVAE/ACGAN）和对抗性领域自适应对 ASC 性能的影响。

提出的方法

使用 ACGAN 和 CVAE/ACGAN 数据增强来生成带场景标签的合成声学特征图。
使用两类主要分类器：(i) FBank-FCNN（10 类）和 (ii) Scalogram-DCNN（10 类）；两者在有/无扩增的条件下训练。
加入额外的分类器：基于 DCT 的时序模块、对抗性城市自适应，以及混合的基于 Inception 的网络（IncepLSTM/IncepGRU），以实现模型融合。
探索集成策略（均值投票和加权投票）以将多种分类器的预测进行汇总。
在 fold-1 的 DCASE2019 设置中进行训练和评估；使用验证集执行早停和超参数调优；在完整开发数据上重新训练最佳系统以进行提交。

实验结果

研究问题

RQ1GAN 基于扩增（ACGAN、CVAE/ACGAN）对不同特征表示（FBank 与尺度图）和架构的 ASC 性能有何影响？
RQ2对 unseen 域/城市的泛化，
RQ3对抗性城市自适应和基于 DCT 的时序模块有何影响？
RQ4多样化 ASC 模型的集成投票（均值 vs 加权）是否优于单模型表现，提升幅度如何？
RQ5哪些特征、扩增方案和分类器架构的组合在 DCASE2019 Task1A fold-1 上获得最高准确率？

主要发现

使用 ACGAN 或 CVAE/ACGAN 的数据扩增能在各种特征类型和分类器上提高 ASC 的准确率（约提升 0.5–4%）。
基于尺度图的特征在 ave-diff 通道下通常比左-右通道表现更好约 3–5%。
最佳单系统在 scalogram-aveDiff 和 CVAE/ACGAN-DCNN 组合下可达 84.28% 以上；在某些设置中 CVAE/ACGAN 可优于 ACGAN。
混合与对抗性方法提供互补增益，但将所有改进全部结合并不总是提升性能；在某些配置中 DCT 能带来帮助。
融合系统在 fold-1 的最终评测上实现 85.07%–85.28% 的准确率，若加权和平均得当则超过 85%。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。