Skip to main content
QUICK REVIEW

[论文解读] An open dataset for research on audio field recording archives: freefield1010

Dan Stowell, Mark D. Plumbley|arXiv (Cornell University)|Sep 20, 2013
Music and Audio Processing参考文献 6被引用 38
一句话总结

本文介绍了 freefield1010,这是一个从 Freesound 归档中精选的免费开放数据集,包含 7,690 个标准化音频片段,经由知识共享许可协议整理,用于音频现场录音分析研究。通过使用基准分类器进行十折交叉验证实验,研究发现诸如 'birdsong' 的标签可实现 82% 的 AUC,而伪标签如 '__geotagged' 仅达到 58% 的 AUC,表明元数据在音频内容上的可预测性中等。

ABSTRACT

We introduce a free and open dataset of 7690 audio clips sampled from the field-recording tag in the Freesound audio archive. The dataset is designed for use in research related to data mining in audio archives of field recordings / soundscapes. Audio is standardised, and audio and metadata are Creative Commons licensed. We describe the data preparation process, characterise the dataset descriptively, and illustrate its use through an auto-tagging experiment.

研究动机与目标

  • 从 Freesound 音频归档中创建一个免费、开放且标准化的数据集,以支持音频现场录音分析领域的可复现研究。
  • 解决在非语音、非音乐音频领域,特别是音频归档背景下,缺乏大规模、公开许可数据集的问题。
  • 使研究人员能够利用多样化、真实世界的数据集,研究语义标签从音频内容中预测的可行性。
  • 为评估自动音频标签和场景分类方法在实地录音上的表现提供基准。
  • 通过结合真实世界多样性与标准化格式和许可协议,克服现有数据集的局限性。

提出的方法

  • 从 Freesound 录音中选取标记为 'field recording' 的条目,仅保留采用 CC-BY 或 CC0 许可证的录音,以确保一致的开放许可。
  • 将音频片段统一为标准格式(44.1 kHz,16 位,单声道)和时长(10 秒),以确保兼容性并减少听觉疲劳。
  • 保留原始元数据,包括作者和 URL 链接,并添加两个伪标签:'__geotagged' 和 '__ccby',以支持元数据分析。
  • 采用十折交叉验证设置,每轮使用九个子集训练分类器,一个子集测试,以 AUC 作为评估指标。
  • 对每个标签应用基准二值分类器,预测其是否存在,性能通过受试者工作特征(ROC)曲线和 AUC 分数衡量。
  • 实验源代码公开,以确保可复现性并促进进一步研究。

实验结果

研究问题

  • RQ1像 'birds'、'city' 或 'water' 这类语义标签能否从现场录音的声学内容中可靠预测?
  • RQ2标签的可预测性与其语义直接性之间有何关联?即它们与音频声学内容的相关性有多清晰?
  • RQ3在仅依赖音频特征的情况下,多大程度上可以推断出元数据属性,如地理标记或许可证类型?
  • RQ4在真实世界、多样化的数据集中,自动标签化性能在不同类型现场录音中表现如何?
  • RQ5像 freefield1010 这类标准化、开放的数据集能否作为音频场景分析和音频归档数据挖掘的可靠基准?

主要发现

  • 标签 'birdsong' 达到最高的 AUC 得分 82%,表明其从音频内容中具有较强的可预测性,暗示某些自然声音具有高度可区分性。
  • 语义关联较间接的标签,如 'city' 和 'people',AUC 得分较低(分别为 63% 和 65%),表明其声学相关性较弱。
  • 伪标签 '__geotagged' 达到 58% AUC,表明地理标记与非地理标记录音在音频内容上仅有轻微差异,可能源于间接关联。
  • 伪标签 '__ccby' 达到 58% AUC,表明许可证元数据在声学上仅有微弱区分度,尽管仍高于随机水平。
  • AUC 得分的 95% 置信区间狭窄且彼此分离,证实该数据集在标签间比较分析中的可靠性。
  • 该数据集的规模和多样性支持对音频标签系统进行稳健评估,具备足够的统计效能以检测标签可预测性中的显著差异。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。