[论文解读] PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition
本论文在 AudioSet 上训练大规模预训练音频神经网络(PANNs),并在音频标签任务上展示了最先进的性能,并在多种架构和输入表示下成功迁移至多种音频模式识别任务。
Audio pattern recognition is an important research topic in the machine learning area, and includes several tasks such as audio tagging, acoustic scene classification, music classification, speech emotion classification and sound event detection. Recently, neural networks have been applied to tackle audio pattern recognition problems. However, previous systems are built on specific datasets with limited durations. Recently, in computer vision and natural language processing, systems pretrained on large-scale datasets have generalized well to several tasks. However, there is limited research on pretraining systems on large-scale datasets for audio pattern recognition. In this paper, we propose pretrained audio neural networks (PANNs) trained on the large-scale AudioSet dataset. These PANNs are transferred to other audio related tasks. We investigate the performance and computational complexity of PANNs modeled by a variety of convolutional neural networks. We propose an architecture called Wavegram-Logmel-CNN using both log-mel spectrogram and waveform as input feature. Our best PANN system achieves a state-of-the-art mean average precision (mAP) of 0.439 on AudioSet tagging, outperforming the best previous system of 0.392. We transfer PANNs to six audio pattern recognition tasks, and demonstrate state-of-the-art performance in several of those tasks. We have released the source code and pretrained models of PANNs: https://github.com/qiuqiangkong/audioset_tagging_cnn.
研究动机与目标
- 介绍在 AudioSet(1.9M 音频片段、527 个类别)上训练的 PANNs,用于广泛的音频标签和模式识别。
- 评估用于 AudioSet 标注的多种 CNN 架构(CNN、ResNet、MobileNet、一维 CNNs)
- 提出 Wavegram-Logmel-CNN,通过将时间域波形与对数梅尔谱特征结合来提升标注效果。
- 描述用于提升泛化能力的数据处理技术(数据平衡、Mixup、SpecAugment)
- 展示 PANNs 转移到除标签之外的多样化音频任务,并发布代码/模型。
提出的方法
- 在原始 AudioSet 音频上训练 PANNs,使用二元交叉熵损失进行多标签标注。
- 探索包括 CNN14、VGG 风格的 CNN(6/10/14 层)、ResNet(ResNet22/38/54)、MobileNet(V1/V2)以及一维 CNN(DaiNet、LeeNet、Res1dNet)在内的架构。
- 提出 Wavegram-CNN:通过一维 CNN 从波形学习时频 Wavegram,然后对 Wavegram 应用二维 CNN(CNN14)。
- 通过在通道维上融合 Wavegram 与对数梅尔谱输入,提出 Wavegram-Logmel-CNN。
- 数据处理:小批量中进行平衡采样,对数梅尔谱或波形进行 Mixup 增强,以及对数梅尔谱图进行 SpecAugment。
- 迁移策略:从头训练、将 PANN 作为特征提取器(冻结)使用,或在新任务上对 PANN 进行微调。
实验结果
研究问题
- RQ1在 AudioSet 的标注任务上,训练自 AudioSet 的 PANN 架构与之前的最先进系统相比性能如何?
- RQ2输入表示(对数梅尔谱 vs 波形 vs Wavegram)和网络架构如何影响标注性能与效率?
- RQ3在 AudioSet 预训练的 PANNs 能否有效迁移到其他音频模式识别任务(如声学场景分类、音乐标注、语音情感),以及采用何种策略?
主要发现
- 基于 CNN14 的 PANNs 在 AudioSet 标注上达到 mAP 0.431,超过之前最先进的 0.392。
- Wavegram-Logmel-CNN 相较于 CNN14 和 MobileNetV1 基线进一步提升性能。
- 数据平衡与增强(Mixup、SpecAugment)显著提升 mAP(例如在 190 万样本上使用 bal+mixup 得到 0.431)。
- CNN-based PANNs trained on AudioSet transfer effectively to other tasks, achieving strong results relative to task-specific baselines.
- 作者公开源代码和预训练的 PANN 模型以便复用。
- 最佳综合配置(以 CNN14 主干、Wavegram-Logmel 输入)在多项指标和任务上相较于基于嵌入特征的方法取得更优性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。