Skip to main content
QUICK REVIEW

[论文解读] Google Speech Commands-Musan test set

Trinh, Viet Anh, Kavaki, Hassan Salami|arXiv (Cornell University)|Apr 9, 2018
Speech Recognition and Synthesis参考文献 6被引用 1,072
一句话总结

本论文介绍用于受限词汇的边缘设备端关键词识别的 Speech Commands 数据集,详述其收集、质量控制,以及包含基线结果的 Top-One 与流式评估协议的可复现性。

ABSTRACT

Describes an audio dataset of spoken words designed to help train and evaluate keyword spotting systems. Discusses why this task is an interesting challenge, and why it requires a specialized dataset that is different from conventional datasets used for automatic speech recognition of full sentences. Suggests a methodology for reproducible and comparable accuracy metrics for this task. Describes how the data was collected and verified, what it contains, previous versions and properties. Concludes by reporting baseline results of models trained on this dataset.

研究动机与目标

  • 提供一个标准的、开放许可的数据集,用于训练和评估小型关键词识别模型。
  • 描述数据收集、标注和质量控制程序,以确保数据可用且说话者无关。
  • 提出可重复的评估指标和训练/测试划分,以实现模型间可比的对比。
  • 提供基线结果并发布代码/工具,以促进基准测试和复现实验。

提出的方法

  • 使用网络录音并获得用户同意,收集20个核心词的英语一秒音量(版本2中附加词)。
  • 进行多阶段质量控制,包括文件大小筛选、转换为 16 kHz WAV,以及提取音量最大的片段。
  • 通过众包进行人工审核以确认标签。
  • 提供背景噪声录音以及使用哈希进行的确定性数据划分方法,用于 train/validation/test 集。
  • 以说话人标识哈希发布数据,以保护隐私并确保跨版本的可重复性。

实验结果

研究问题

  • RQ1哪些词汇表和数据收集方法最能支持在设备端进行关键词发现,且假阳性率低?
  • RQ2如何建立可重复的数据收集与评估协议,以实现公平的模型比较?
  • RQ3在标准化指标下,简单模型在 Speech Commands 数据集上的基线性能是多少?
  • RQ4应如何构建训练、验证和测试划分以避免跨数据集版本的泄漏?
  • RQ5版本1与版本2数据集在 Top-One 精度和流式指标方面的比较如何?

主要发现

数据V1 训练V2 训练V1 测试V2 测试
V1 Training85.4%89.7%N/AN/A
V2 Training82.7%88.2%N/AN/A
  • 最终数据集包含 105,829 条音句,覆盖 35 个词,由 2,618 名说话者组成,存储为 16 kHz 16-bit 单声道 WAV 文件(约 3.8 GB 未压缩)。
  • 版本2在各自数据上进行训练和测试时,相对于版本1在 Top-One 精度方面有所提升:V1 Training with V1 Test 85.4% 与 V2 Training with V2 Test 88.2%;跨版本结果分别为 89.7% 和 82.7%。
  • 基线卷积神经网络(CNN)基础的关键词识别模型在 V2 数据上使用提供的训练命令达到 88.2% 的 Top-One。
  • 规范化的流式评估产生多项指标(matched, correctly, wrongly, false positives),典型容忍度为 750 ms,且有一个小时的流式测试文件以实现可重复性。
  • 数据集包括十个核心词、附加命令和干扰词、背景噪声语料库,以及使用基于哈希的划分来阻止跨版本泄漏的明确的 train/validation/test 列表。
  • 发布过程对说话人ID进行哈希以实现匿名化,并确保跨版本的一致性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。