Skip to main content
QUICK REVIEW

[论文解读] A Closer Look at Weak Label Learning for Audio Events

Ankit Shah, Anurag Kumar|arXiv (Cornell University)|Apr 24, 2018
Music and Audio Processing参考文献 4被引用 47
一句话总结

本文提出 WAL-Net,一种基于卷积神经网络的弱标签音频事件检测方法,并分析标签密度和标签污染对 Audioset 学习的影响,同时对比来自网络的弱数据。

ABSTRACT

Audio content analysis in terms of sound events is an important research problem for a variety of applications. Recently, the development of weak labeling approaches for audio or sound event detection (AED) and availability of large scale weakly labeled dataset have finally opened up the possibility of large scale AED. However, a deeper understanding of how weak labels affect the learning for sound events is still missing from literature. In this work, we first describe a CNN based approach for weakly supervised training of audio events. The approach follows some basic design principle desirable in a learning method relying on weakly labeled audio. We then describe important characteristics, which naturally arise in weakly supervised learning of sound events. We show how these aspects of weak labels affect the generalization of models. More specifically, we study how characteristics such as label density and corruption of labels affects weakly supervised training for audio events. We also study the feasibility of directly obtaining weak labeled data from the web without any manual label and compare it with a dataset which has been manually labeled. The analysis and understanding of these factors should be taken into picture in the development of future weak label learning methods. Audioset, a large scale weakly labeled dataset for sound events is used in our experiments.

研究动机与目标

  • 利用大型网络数据集中的弱标签来推动可扩展的音频事件检测。
  • 提出一种基于 CNN 的架构(WAL-Net),在弱标签下学习分段后验并聚合为录音级预测。
  • 描述标签密度和标签污染噪声如何影响弱监督 AED 的泛化。
  • 比较手工标注数据与来自网络的弱标签的学习,并研究网络挖掘弱标签的可行性。

提出的方法

  • 介绍 WAL-Net:一种在对数梅尔谱上运行的全卷积 CNN,预测分段后验并通过平均池化映射到录音级输出。
  • 使用基于录音级弱标签的多标签二值交叉熵损失,在所有类别上进行训练。
  • 使用 128 帧的对数梅尔输入,3x3 卷积,带批归一化和 ReLU,分段长度约 1.5 秒,重叠 50%。
  • 允许变长度录音,并通过检查分段级输出实现时间定位。
  • 使用 Audioset-At-30 与 Audioset-At-60 进行实验,以模拟降低的标签密度并研究其对性能的影响。
  • 通过逐步污染 Audioset 中的标签来检查标签污染,并与基于网络的 YouTube-wild 数据集进行比较,以评估对标签噪声的鲁棒性。

实验结果

研究问题

  • RQ1仅使用录音级标签,基于 CNN 的弱监督模型(WAL-Net)在大规模 Audioset 上的表现如何?
  • RQ2弱标签中的标签密度和标签污染噪声如何影响 AED 的泛化?
  • RQ3从网络(YouTube-wild)挖掘的弱标签能否接近人工标注的 Audioset 数据的性能?
  • RQ4降低标签密度(更长的录音但事件存在较少)对模型性能有何影响?

主要发现

  • WAL-Net 在 Audioset 上的 MAUC 约为 0.925,总体性能的 AP 为 0.196,覆盖 527 个事件。
  • 性能随事件的特异性而显著变化,对于具体声音(如风笛、警笛)具有较高的 AP,而对于含糊的声音(如室内/公共场所内)则 AP 很低。
  • 将标签密度从 10 秒(Audioset)降至 30 秒(Audioset-At-30)使 MAP 相对下降约 12%,表明对标签密度敏感。
  • Audioset-At-60 进一步降低标签密度,并提供对标签噪声鲁棒性的更多洞见,而 YouTube-wild 实验则说明了来自网络的弱标签的挑战。
  • 研究中 Audioset 为人工标注并被视为近乎完美的标签;对标签的系统性污染显示了嘈杂标签如何削弱弱监督学习。
  • WAL-Net 可以在弱监督设置下通过利用分段级预测并将其平均汇聚到录音级输出,实现对事件的时间定位。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。