Skip to main content
QUICK REVIEW

[论文解读] A multi-device dataset for urban acoustic scene classification

Annamaria Mesaros, Toni Heittola|arXiv (Cornell University)|Jul 25, 2018
Music and Audio Processing参考文献 10被引用 181
一句话总结

介绍了 TUT Urban Acoustic Scenes 2018 数据集用于 DCASE 2018,包含在六个欧洲城市的多设备录音,并为在匹配与不匹配设备条件下的子任务提供 CNN 基线。

ABSTRACT

This paper introduces the acoustic scene classification task of DCASE 2018 Challenge and the TUT Urban Acoustic Scenes 2018 dataset provided for the task, and evaluates the performance of a baseline system in the task. As in previous years of the challenge, the task is defined for classification of short audio samples into one of predefined acoustic scene classes, using a supervised, closed-set classification setup. The newly recorded TUT Urban Acoustic Scenes 2018 dataset consists of ten different acoustic scenes and was recorded in six large European cities, therefore it has a higher acoustic variability than the previous datasets used for this task, and in addition to high-quality binaural recordings, it also includes data recorded with mobile devices. We also present the baseline system consisting of a convolutional neural network and its performance in the subtasks using the recommended cross-validation setup.

研究动机与目标

  • 建立一个具有多设备录音的“大型、变量化”的城市声学场景数据集,以反映现实世界条件。
  • 评估在高质量和多设备录音上的基线 CNN 性能。
  • 研究设备不匹配对声学场景分类性能的影响。
  • 提供开发和评估管线,带有透明的数据划分以实现公平基准测试。

提出的方法

  • 从 10 秒片段中计算对数梅尔能量(40 帧)。
  • 使用两层卷积层和一层全连接层的 CNN,输入为 40x500 的对数梅尔能量。
  • 在训练中使用批量归一化和 Adam 优化器(学习率=0.001)。
  • 将数据按地点划分为开发/训练/测试,避免数据泄漏。
  • 在三个子任务下提供基线:A(匹配高质量设备)、B(带并行数据的设备不匹配)、C(允许外部数据)。
  • 对四个设备进行时间同步的并行录音,以实现对多设备的稳健评估。

实验结果

研究问题

  • RQ1大型多城市城市声学场景数据集与多设备录音如何影响分类性能?
  • RQ2在匹配条件(子任务 A)下的基线 CNN 性能,以及在设备不匹配下(子任务 B)有何表现?
  • RQ3设备多样性和并行数据如何影响跨设备和评估条件的泛化?
  • RQ4外部数据迁移学习(子任务 C)是否能在现实的不匹配条件下提高性能?

主要发现

  • 基线 CNN 在子任务 A 的开发集和评估集上,在 10 个场景中的准确率分别为 59.7%(开发)和 61.0%(评估)。
  • 对于子任务 A,按场景的开发/评估性能在 40.4% 到 80.5%(开发)和 33.9% 到 81.9%(评估)之间波动,公共广场是最弱类别。
  • 子任务 B 在在设备 B、C、D 上测试时相较于设备 A 出现显著下降,体现设备不匹配的影响;B/C 的平均性能明显低于 A。
  • 子任务 A 在各场景中的平均性能为开发 59.7%,评估 61.0%。
  • 设备 D(压缩音频)在不匹配条件下表现尤差,突出记录格式对跨设备泛化的影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。