Skip to main content
QUICK REVIEW

[论文解读] HumBugDB: a large-scale acoustic mosquito dataset

Ivan Kiskin, Wang, Lawrence|arXiv (Cornell University)|May 15, 2017
Music and Audio Processing参考文献 16被引用 39
一句话总结

本文介绍了HumBugDB,一个大规模的声学蚊子数据集,并提出了一种基于小波变换音频的卷积神经网络(CNN)深度学习方法,用于检测蚊子存在。该方法在AUC(0.970)方面表现优异,超越了传统分类器和人类专家,可视化结果证实网络学习到了具有生物学意义的频率特征。

ABSTRACT

<strong>A large-scale multi-species dataset of acoustic recordings</strong> Dataset accompanying code and paper: <em>HumBugDB: a large-scale acoustic mosquito dataset</em>. A large-scale multi-species dataset containing recordings of mosquitoes collected from multiple locations globally, as well as via different collection methods. In total, we present 71,286 seconds (20 hours) of labelled mosquito data with 53,227 seconds (15 hours) of corresponding background noise, recorded at the sites of 8 experiments. Of these, 64,843 seconds contain species metadata, consisting of 36 species (or species complexes). This repository contains: Multi-part zip of audio files to be extracted into the same folder Metadata in csv format: neurips_2021_zenodo_0_0_1.csv This data is supplemented by a GitHub repository, https://github.com/HumBug-Mosquito/HumBugDB, which aids as follows: The multi-part zip is intended to be extracted into the folder:<em> /data/audio/</em> in the repository. Latest metadata is hosted on GitHub to allow the modification of additional metadata as it becomes available in the database or bug-fixing. Documentation for code use, and a complete Datasheet for Datasets also available on GitHub. Example code for data splitting, feature extraction, model training, and evaluation in the top-level notebook <em>main.ipynb</em>. Bayesian Convolutional Neural Network models, in both Keras and PyTorch, trained on this data available at GitHub release v1.0

研究动机与目标

  • 解决在真实世界、数据稀缺的声学环境中检测自由飞行蚊子的挑战。
  • 开发一种在标注训练数据有限的情况下仍具有良好泛化能力的深度学习模型。
  • 在蚊子检测准确率方面超越传统的手工特征分类器和人类专家。
  • 验证模型学习的是有意义的声学特征,而非录音设备产生的伪影。
  • 通过高精度、低延迟的推理,实现通过智能手机或嵌入式系统进行实际部署。

提出的方法

  • 该方法采用一维卷积神经网络(CNN),在原始音频记录的连续小波变换频谱图上进行训练。
  • 使用小波表示以增强时间-频率分辨率,从而更好地捕捉微弱、嘈杂的蚊子飞行信号。
  • 通过架构约束和基于数据稀缺性的超参数调优,对网络进行优化,以适应小样本数据集。
  • 对人工标签应用滚动中值滤波(1秒窗口)以建模人工标注的一致性,并提升与算法预测结果的比较效果。
  • 通过计算并比较激活最强的测试样本和训练样本的集成平均频率谱,可视化区分性特征。
  • 通过反向传播激活统计量,将预测置信度和特征相关性映射回学习到的信号成分,以验证模型的可解释性。

实验结果

研究问题

  • RQ1在小规模真实声学数据集上训练的深度学习模型,是否能在蚊子检测任务中超越传统机器学习方法?
  • RQ2CNN是否学习到了具有生物学意义的频率分量(如蚊子翅膀拍打的谐波),而非录音设备产生的伪影?
  • RQ3该模型在标注一致性和准确性方面,能在多大程度上超越人类专家?
  • RQ4在数据稀缺条件下,小波表示与短时傅里叶变换(STFT)相比,是否能更有效地支持鲁棒检测?
  • RQ5能否可视化模型的内部表征,以确认其检测到的是真实的蚊子声学特征?

主要发现

  • 采用小波特征的CNN在受试者工作特征曲线下面积(AUC)达到0.970,显著优于最佳人类专家(AUC 0.901)和传统分类器(AUC 0.873–0.901)。
  • 该模型超越了所有测试基线,包括使用手工特征的随机森林和SVM,以及使用STFT表示的全连接神经网络。
  • 对激活最强的测试样本进行可视化,证实网络学习到了一个对应于蚊子翅膀拍打的650 Hz显著峰值,与真实信号特征一致。
  • 网络未学习麦克风噪声特征,因为非蚊子类别的频谱未显示此类主导峰值,表明对录音伪影具有鲁棒性。
  • 经滤波后的算法F1分数为0.88,与最佳人类标注者相当,表明尽管预测置信度更高,但准确率相当。
  • 该模型的性能使其能够实现在移动设备或嵌入式平台上的实际部署,支持可扩展的蚊子监测。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。