Skip to main content
QUICK REVIEW

[论文解读] General-purpose Tagging of Freesound Audio with AudioSet Labels: Task Description, Dataset, and Baseline

Eduardo Fonseca, Manoj Plakal|arXiv (Cornell University)|Jul 26, 2018
Music and Audio Processing参考文献 7被引用 100
一句话总结

本文描述了 DCASE 2018 Task 2 在 Freesound 音频标签上的 AudioSet 标签,引入 FSDKaggle2018 数据集,并给出一个基线3层 CNN 系统,在 mAP@3 上达到 0.70。

ABSTRACT

This paper describes Task 2 of the DCASE 2018 Challenge, titled "General-purpose audio tagging of Freesound content with AudioSet labels". This task was hosted on the Kaggle platform as "Freesound General-Purpose Audio Tagging Challenge". The goal of the task is to build an audio tagging system that can recognize the category of an audio clip from a subset of 41 diverse categories drawn from the AudioSet Ontology. We present the task, the dataset prepared for the competition, and a baseline system.

研究动机与目标

  • 使用用户生成的 Freesound 内容来推动广谱音频标注。
  • 创建一个包含41个 AudioSet 类别且注释可靠性混合的数据集(FSDKaggle2018)。
  • 在现实、复杂且略带嘈杂的数据集上评估基线标注方法。

提出的方法

  • 描述将 Freesound 标签与 AudioSet 类别相联系的数据收集与标注过程。
  • 构建 FSDKaggle2018,其包含人工验证和非验证注释以及基于 QE 的过滤。
  • 将数据划分为训练/测试,约18小时音频、11k 条目,跨41个类别。
  • 提出在对数梅尔倒谱输入上运行的基线 CNN 模型,具有3个卷积层和41 类 softmax 输出。
  • 以 0.25 s 窗口、0.125 s 移位处理音频,平均窗口级预测以得到裁剪级输出。

实验结果

研究问题

  • RQ1一个通用音频标注模型是否能正确将多样化的实际 Freesound 剪辑分类到 41 个 AudioSet 类别?
  • RQ2注释可靠性(人工验证 vs 非验证)如何影响模型训练与评估?
  • RQ3使用标准 CNN 架构在 FSDKaggle2018 上可达到的基线性能(mAP@3)是多少?
  • RQ4数据集设计选择(剪辑时长、平衡以及叶/父类别聚合)对结果有何影响?

主要发现

名称剪辑时长AP@3
Acoustic guitar300520.67
Applause300580.98
Bark239450.85
Bass drum300130.55
Burping, eructation210120.71
Bus109280.53
Cello300370.86
Chime115240.79
Clarinet300350.96
Computer keyboard119230.54
Cough243220.69
Cowbell191110.58
Double bass300170.69
Drawer open, close158180.05
Electric piano150250.75
Fart300180.65
Glockenspiel9480.59
Gunshot, gunfire147110.16
Harmonica165190.86
Hi-hat300190.53
Knock279190.89
Laughter300360.96
Meow155190.82
Oboe299150.88
Olive---
Saxophone300340.84
Snare drum300180.30
Trumpet300280.84
Violin, fiddle300270.73
Writing270480.66
Meow (duplicate)155190.82
Meow (duplicate)155190.82
Tambourine221100.78
Tearing300390.94
Flute300460.90
Gong292420.81
Shatter300260.70
Squeak300380.16
Telephone120160.65
  • 基线 CNN 在整个测试集上实现 mAP@3 为 0.70(公开 0.70,Kaggle 私有划分 0.69)。
  • FSDKaggle2018 包含 11,073 条音频剪辑,跨41个类别,包含训练集与测试集,总音频约18小时。
  • 人工验证的注释是 Present and Predominant (PP);非验证注释的 QE ≥ 65% 且可能存在噪声。
  • 数据集在测试集中包括填充剪辑,以防数据泄漏并确保公平评估。
  • 对于所有41个类别,在表2中报告每类的 AP@3,显示各类别的变异性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。