QUICK REVIEW

[论文解读] General-purpose Tagging of Freesound Audio with AudioSet Labels: Task Description, Dataset, and Baseline

Eduardo Fonseca, Manoj Plakal|arXiv (Cornell University)|Jul 26, 2018

Music and Audio Processing参考文献 7被引用 100

一句话总结

本文描述了 DCASE 2018 Task 2 在 Freesound 音频标签上的 AudioSet 标签，引入 FSDKaggle2018 数据集，并给出一个基线3层 CNN 系统，在 mAP@3 上达到 0.70。

ABSTRACT

This paper describes Task 2 of the DCASE 2018 Challenge, titled "General-purpose audio tagging of Freesound content with AudioSet labels". This task was hosted on the Kaggle platform as "Freesound General-Purpose Audio Tagging Challenge". The goal of the task is to build an audio tagging system that can recognize the category of an audio clip from a subset of 41 diverse categories drawn from the AudioSet Ontology. We present the task, the dataset prepared for the competition, and a baseline system.

研究动机与目标

使用用户生成的 Freesound 内容来推动广谱音频标注。
创建一个包含41个 AudioSet 类别且注释可靠性混合的数据集（FSDKaggle2018）。
在现实、复杂且略带嘈杂的数据集上评估基线标注方法。

提出的方法

描述将 Freesound 标签与 AudioSet 类别相联系的数据收集与标注过程。
构建 FSDKaggle2018，其包含人工验证和非验证注释以及基于 QE 的过滤。
将数据划分为训练/测试，约18小时音频、11k 条目，跨41个类别。
提出在对数梅尔倒谱输入上运行的基线 CNN 模型，具有3个卷积层和41 类 softmax 输出。
以 0.25 s 窗口、0.125 s 移位处理音频，平均窗口级预测以得到裁剪级输出。

实验结果

研究问题

RQ1一个通用音频标注模型是否能正确将多样化的实际 Freesound 剪辑分类到 41 个 AudioSet 类别？
RQ2注释可靠性（人工验证 vs 非验证）如何影响模型训练与评估？
RQ3使用标准 CNN 架构在 FSDKaggle2018 上可达到的基线性能（mAP@3）是多少？
RQ4数据集设计选择（剪辑时长、平衡以及叶/父类别聚合）对结果有何影响？

主要发现

名称	剪辑	时长	AP@3
Acoustic guitar	300	52	0.67
Applause	300	58	0.98
Bark	239	45	0.85
Bass drum	300	13	0.55
Burping, eructation	210	12	0.71
Bus	109	28	0.53
Cello	300	37	0.86
Chime	115	24	0.79
Clarinet	300	35	0.96
Computer keyboard	119	23	0.54
Cough	243	22	0.69
Cowbell	191	11	0.58
Double bass	300	17	0.69
Drawer open, close	158	18	0.05
Electric piano	150	25	0.75
Fart	300	18	0.65
Glockenspiel	94	8	0.59
Gunshot, gunfire	147	11	0.16
Harmonica	165	19	0.86
Hi-hat	300	19	0.53
Knock	279	19	0.89
Laughter	300	36	0.96
Meow	155	19	0.82
Oboe	299	15	0.88
Olive	-	-	-
Saxophone	300	34	0.84
Snare drum	300	18	0.30
Trumpet	300	28	0.84
Violin, fiddle	300	27	0.73
Writing	270	48	0.66
Meow (duplicate)	155	19	0.82
Meow (duplicate)	155	19	0.82
Tambourine	221	10	0.78
Tearing	300	39	0.94
Flute	300	46	0.90
Gong	292	42	0.81
Shatter	300	26	0.70
Squeak	300	38	0.16
Telephone	120	16	0.65

基线 CNN 在整个测试集上实现 mAP@3 为 0.70（公开 0.70，Kaggle 私有划分 0.69）。
FSDKaggle2018 包含 11,073 条音频剪辑，跨41个类别，包含训练集与测试集，总音频约18小时。
人工验证的注释是 Present and Predominant (PP)；非验证注释的 QE ≥ 65% 且可能存在噪声。
数据集在测试集中包括填充剪辑，以防数据泄漏并确保公平评估。
对于所有41个类别，在表2中报告每类的 AP@3，显示各类别的变异性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。