QUICK REVIEW
[论文解读] General-purpose Tagging of Freesound Audio with AudioSet Labels: Task Description, Dataset, and Baseline
Eduardo Fonseca, Manoj Plakal|arXiv (Cornell University)|Jul 26, 2018
Music and Audio Processing参考文献 7被引用 100
一句话总结
本文描述了 DCASE 2018 Task 2 在 Freesound 音频标签上的 AudioSet 标签,引入 FSDKaggle2018 数据集,并给出一个基线3层 CNN 系统,在 mAP@3 上达到 0.70。
ABSTRACT
This paper describes Task 2 of the DCASE 2018 Challenge, titled "General-purpose audio tagging of Freesound content with AudioSet labels". This task was hosted on the Kaggle platform as "Freesound General-Purpose Audio Tagging Challenge". The goal of the task is to build an audio tagging system that can recognize the category of an audio clip from a subset of 41 diverse categories drawn from the AudioSet Ontology. We present the task, the dataset prepared for the competition, and a baseline system.
研究动机与目标
- 使用用户生成的 Freesound 内容来推动广谱音频标注。
- 创建一个包含41个 AudioSet 类别且注释可靠性混合的数据集(FSDKaggle2018)。
- 在现实、复杂且略带嘈杂的数据集上评估基线标注方法。
提出的方法
- 描述将 Freesound 标签与 AudioSet 类别相联系的数据收集与标注过程。
- 构建 FSDKaggle2018,其包含人工验证和非验证注释以及基于 QE 的过滤。
- 将数据划分为训练/测试,约18小时音频、11k 条目,跨41个类别。
- 提出在对数梅尔倒谱输入上运行的基线 CNN 模型,具有3个卷积层和41 类 softmax 输出。
- 以 0.25 s 窗口、0.125 s 移位处理音频,平均窗口级预测以得到裁剪级输出。
实验结果
研究问题
- RQ1一个通用音频标注模型是否能正确将多样化的实际 Freesound 剪辑分类到 41 个 AudioSet 类别?
- RQ2注释可靠性(人工验证 vs 非验证)如何影响模型训练与评估?
- RQ3使用标准 CNN 架构在 FSDKaggle2018 上可达到的基线性能(mAP@3)是多少?
- RQ4数据集设计选择(剪辑时长、平衡以及叶/父类别聚合)对结果有何影响?
主要发现
| 名称 | 剪辑 | 时长 | AP@3 |
|---|---|---|---|
| Acoustic guitar | 300 | 52 | 0.67 |
| Applause | 300 | 58 | 0.98 |
| Bark | 239 | 45 | 0.85 |
| Bass drum | 300 | 13 | 0.55 |
| Burping, eructation | 210 | 12 | 0.71 |
| Bus | 109 | 28 | 0.53 |
| Cello | 300 | 37 | 0.86 |
| Chime | 115 | 24 | 0.79 |
| Clarinet | 300 | 35 | 0.96 |
| Computer keyboard | 119 | 23 | 0.54 |
| Cough | 243 | 22 | 0.69 |
| Cowbell | 191 | 11 | 0.58 |
| Double bass | 300 | 17 | 0.69 |
| Drawer open, close | 158 | 18 | 0.05 |
| Electric piano | 150 | 25 | 0.75 |
| Fart | 300 | 18 | 0.65 |
| Glockenspiel | 94 | 8 | 0.59 |
| Gunshot, gunfire | 147 | 11 | 0.16 |
| Harmonica | 165 | 19 | 0.86 |
| Hi-hat | 300 | 19 | 0.53 |
| Knock | 279 | 19 | 0.89 |
| Laughter | 300 | 36 | 0.96 |
| Meow | 155 | 19 | 0.82 |
| Oboe | 299 | 15 | 0.88 |
| Olive | - | - | - |
| Saxophone | 300 | 34 | 0.84 |
| Snare drum | 300 | 18 | 0.30 |
| Trumpet | 300 | 28 | 0.84 |
| Violin, fiddle | 300 | 27 | 0.73 |
| Writing | 270 | 48 | 0.66 |
| Meow (duplicate) | 155 | 19 | 0.82 |
| Meow (duplicate) | 155 | 19 | 0.82 |
| Tambourine | 221 | 10 | 0.78 |
| Tearing | 300 | 39 | 0.94 |
| Flute | 300 | 46 | 0.90 |
| Gong | 292 | 42 | 0.81 |
| Shatter | 300 | 26 | 0.70 |
| Squeak | 300 | 38 | 0.16 |
| Telephone | 120 | 16 | 0.65 |
- 基线 CNN 在整个测试集上实现 mAP@3 为 0.70(公开 0.70,Kaggle 私有划分 0.69)。
- FSDKaggle2018 包含 11,073 条音频剪辑,跨41个类别,包含训练集与测试集,总音频约18小时。
- 人工验证的注释是 Present and Predominant (PP);非验证注释的 QE ≥ 65% 且可能存在噪声。
- 数据集在测试集中包括填充剪辑,以防数据泄漏并确保公平评估。
- 对于所有41个类别,在表2中报告每类的 AP@3,显示各类别的变异性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。