QUICK REVIEW

[论文解读] Deep CNN Framework for Audio Event Recognition using Weakly Labeled Web Data

Anurag Kumar, Bhiksha Raj|arXiv (Cornell University)|Jul 9, 2017

Music and Audio Processing参考文献 19被引用 25

一句话总结

本文提出了一种深度卷积神经网络（CNN）框架，直接从弱标签化的网络音频数据中训练音频事件识别器——其中仅标注了事件是否存在，未标注时间边界。该方法采用分层CNN架构，结合全局平均池化与片段级分类，实现从可变长度录音中端到端的学习，在Audioset数据集上达到最先进性能，且优于在强标签数据上训练的模型，同时在训练过程中无需真实时间戳即可实现时间定位。

ABSTRACT

The development of audio event recognition systems require labeled training data, which are generally hard to obtain. One promising source of recordings of audio events is the large amount of multimedia data on the web. In particular, if the audio content analysis must itself be performed on web audio, it is important to train the recognizers themselves from such data. Training from these web data, however, poses several challenges, the most important being the availability of labels: labels, if any, that may be obtained for the data are generally weak, and not of the kind conventionally required for training detectors or classifiers. We propose that learning algorithms that can exploit weak labels offer an effective method to learn from web data. We then propose a robust and efficient deep convolutional neural network (CNN) based framework to learn audio event recognizers from weakly labeled data. The proposed method can train from and analyze recordings of variable length in an efficient manner and outperforms a network trained with strongly labeled web data by a considerable margin. Moreover, even though we learn from weakly labeled data, where event time stamps within the recording are not available during training, our proposed framework is able to localize events during the inference stage.

研究动机与目标

为解决大规模强标签音频事件数据集稀缺的问题，利用来自YouTube等来源的弱标签化网络音频数据。
开发一种深度学习框架，能够有效从网络标签数据中学习，而无需精确的时间标注。
实现在无需固定长度分段的情况下，对可变长度音频录音进行高效训练与推理。
即使训练数据缺乏事件边界标注，也能实现准确的音频事件识别与时间定位。
证明在真实、嘈杂环境中，基于弱标签网络数据训练的模型可优于基于强标签数据训练的模型。

提出的方法

该框架采用包含多个卷积与池化层的深度CNN，从原始波形中提取分层音频特征。
通过在片段级输出上进行全局平均池化，为每段录音生成单一预测，从而实现从弱标签数据的端到端训练。
利用最终卷积层（F3）的片段级激活图，通过回溯感受野到输入时间帧，实现时间定位的推断。
使用二元交叉熵损失函数，基于表示事件在完整录音中是否存在与否的弱标签进行模型训练。
该架构设计用于处理可变长度输入，无需预分割，从而提升计算效率与训练灵活性。
采用两阶段训练流程：首先在大规模弱标签网络数据集上预训练网络；其次在较小的强标签数据集上进行微调以提升性能。

实验结果

研究问题

RQ1深度CNN框架能否在无需精确时间标注的情况下，有效从弱标签化网络音频数据中学习音频事件识别？
RQ2在识别准确率方面，基于网络标签数据训练是否优于基于强标签数据训练，尤其是在嘈杂、真实场景下？
RQ3仅使用弱标签训练的模型是否能在推理阶段实现有意义的时间定位？
RQ4基于网络音频训练的模型与在Urbansounds等精心筛选的强标签数据集上训练的模型相比，性能如何？
RQ5所提出的框架在处理可变长度录音以及网络数据中常见的噪声与重叠事件方面，表现如何？

主要发现

在弱标签YouTube数据上训练的所提框架，在平均平均精度（mAP）上相比在强标签数据上训练的模型实现了21%的相对提升。
对于空调、汽车鸣笛和电钻等事件，基于网络标签数据训练的AP相对提升在63%至96%之间。
在Audioset测试集上，基于YouTube网络数据训练的模型在mAP上比Urbansounds数据集训练的模型高出9%，在MAUC上高出2.5%。
对于汽车鸣笛和狗叫事件，相对于Urbansounds训练模型的性能提升分别超过57%和31%，凸显了网络数据在复杂真实事件中的优势。
尽管训练过程中未使用真实时间戳，该模型仍能通过片段级激活图成功实现推理阶段的时间定位。
该框架在噪声与重叠事件环境下表现出强鲁棒性，在具有挑战性的非结构化网络音频数据上优于强标签基线模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。