QUICK REVIEW

[论文解读] MUSAN: A Music, Speech, and Noise Corpus

David Snyder, Guoguo Chen|arXiv (Cornell University)|Oct 28, 2015

Speech Recognition and Synthesis参考文献 5被引用 922

一句话总结

本文介绍了 MUSAN，一个可自由分发的音频语料库，包含从公共领域和知识共享许可来源获取的109小时音乐、语音和噪声音频，专为训练语音活动检测（VAD）和音乐/语音区分系统而设计。在该语料库上使用基于高斯混合模型（GMM）的模型，作者取得了具有竞争力的性能表现——尤其在VAD方面，GMM+能量混合模型在低资源条件下使说话人识别等效错误率（EER）最高降低23.16%。

ABSTRACT

This report introduces a new corpus of music, speech, and noise. This dataset is suitable for training models for voice activity detection (VAD) and music/speech discrimination. Our corpus is released under a flexible Creative Commons license. The dataset consists of music from several genres, speech from twelve languages, and a wide assortment of technical and non-technical noises. We demonstrate use of this corpus for music/speech discrimination on Broadcast news and VAD for speaker identification.

研究动机与目标

创建一个公开可用、可合法分发的音频语料库，用于训练语音活动检测（VAD）和音乐/语音区分系统。
解决音乐和语音领域缺乏可合法分发的原始音频数据集的问题，特别是那些具备商业使用许可清晰授权的数据集。
提供一个多样化、多语言、多流派的语料库，涵盖语音、音乐和环境噪声，以提升语音处理应用中的鲁棒性。
通过在标准基准（如Broadcast News和NIST SRE 2010）上使用基于GMM的基线实验，展示该语料库的实用性。
评估在语音资源有限条件下，VAD质量对下游说话人识别性能的影响。

提出的方法

该语料库从美国公共领域和知识共享许可来源收集，包括Librivox（朗读语音）、Jamendo、Free Music Archive、Incompetech和HD Classical Music（音乐），以及Free Sound和Sound Bible（噪声）。
音频格式为16kHz单声道WAV文件，每个音频片段的元数据和许可信息存储在LICENSE和ANNOTATIONS文件中。
对于音乐/语音区分任务，基于20维梅尔倒谱系数（MFCC）及其一阶和二阶差分特征训练GMM模型，使用4至128个分量，并在Broadcast News数据上以等效错误率（EER）进行评估。
对于VAD任务，采用混合系统：结合基于能量的VAD与在语音、音乐和噪声子集上训练的GMM-VAD，其先验概率在域外数据上进行调优。
说话人识别实验采用i-vector系统，结合GMM通用背景模型（UBM）和PLDA后端，利用VAD决策过滤非语音帧。
性能在NIST SRE 2010核心集上进行评估，测试语音段被截断为1至60秒，以模拟实时处理约束。

实验结果

研究问题

RQ1能否从公共领域和知识共享来源构建一个大规模、可合法分发的音乐、语音与噪声音频语料库？
RQ2在MUSAN上训练的模型与在广泛使用但不可分发的GTZAN数据集上训练的模型相比，其在音乐/语音区分任务上的性能表现如何？
RQ3在语音资源有限的条件下，基于MUSAN训练的GMM-VAD在多大程度上能提升说话人识别性能？
RQ4包含多样化的噪声类型和非英语语音是否能增强VAD和区分系统在实际应用中的鲁棒性？
RQ5在低资源说话人识别场景中，GMM+能量混合VAD与基线仅基于能量的VAD相比，性能表现如何？

主要发现

MUSAN语料库包含109小时音频，其中包括60小时语音（来自Librivox和美国政府录音）、42.5小时音乐（来自多种流派和来源）以及6小时多样的噪声样本。
在MUSAN上训练的基于GMM的音乐/语音区分模型，使用16个分量时EER达到3.75%，与在GTZAN数据集上训练的模型（EER为3.85%）性能相当。
在仅提供1秒语音的情况下，添加基于GMM的VAD使说话人识别EER最高降低23.16%，相比基线仅基于能量的VAD。
GMM+能量VAD在所有测试时长下均优于仅基于能量的VAD，最大相对提升（23.16%）出现在1秒语音条件下。
该语料库在灵活的知识共享许可下完全可分发，所有音频文件均正确标注来源和许可信息，支持商业用途。
结果表明，MUSAN是训练鲁棒VAD和音乐/语音区分系统的可行且合法的替代方案，可替代现有数据集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。