Skip to main content
QUICK REVIEW

[论文解读] SpeakerNet: 1D Depth-wise Separable Convolutional Network for Text-Independent Speaker Recognition and Verification

Nithin Rao Koluguri, Jason Li|arXiv (Cornell University)|Oct 23, 2020
Speech Recognition and Synthesis参考文献 22被引用 29
一句话总结

SpeakerNet 提出了一种轻量级的一维深度可分离卷积神经网络,用于文本无关的说话人识别与验证,采用基于 QuartzNet 的编码器结合 x-vector 风格的统计池化层,生成固定长度的说话人嵌入。该模型在无需语音活动检测(VAD)且使用更短输入片段的情况下,于 VoxCeleb1 清洗集和测试集上分别实现了 2.10% 和 2.29% 的等错误率(EER),达到当前最先进性能,同时其紧凑的 SpeakerNet-M 变体仅包含 500 万个参数。

ABSTRACT

We propose SpeakerNet - a new neural architecture for speaker recognition and speaker verification tasks. It is composed of residual blocks with 1D depth-wise separable convolutions, batch-normalization, and ReLU layers. This architecture uses x-vector based statistics pooling layer to map variable-length utterances to a fixed-length embedding (q-vector). SpeakerNet-M is a simple lightweight model with just 5M parameters. It doesn't use voice activity detection (VAD) and achieves close to state-of-the-art performance scoring an Equal Error Rate (EER) of 2.10% on the VoxCeleb1 cleaned and 2.29% on the VoxCeleb1 trial files.

研究动机与目标

  • 开发一种轻量级、端到端的神经网络,用于文本无关的说话人识别与验证,避免对语音活动检测(VAD)的依赖。
  • 研究训练时间、输入语音段长度与验证性能(EER)之间的权衡。
  • 在远低于当前最先进模型参数量的前提下,实现具有竞争力的性能,尤其在高效训练与推理的背景下。

提出的方法

  • 模型采用受 QuartzNet 启发的编码器,其残差块由一维深度可分离卷积、批归一化、ReLU 和 Dropout 层组成。
  • 通过计算每个通道在时间维度上的均值与标准差,应用 x-vector 风格的统计池化层,将可变长度的语音段转换为固定长度的嵌入(q-vector)。
  • 解码器由全连接层构成,利用交叉熵损失或加法边际角损失(AAM)将固定长度嵌入映射到说话人分类头。
  • 网络在 VoxCeleb1 和 VoxCeleb2 开发集上进行端到端训练,采用余弦退火学习率调度和 SGD 优化器。
  • 通过 MUSAN 噪声和 RIR 卷积进行数据增强,以提升鲁棒性,尤其在干净测试集上表现更优。
  • 将输入语音段截断或随机裁剪为 8 秒,以显著降低训练时间,同时性能下降可忽略。

实验结果

研究问题

  • RQ1能否通过轻量级的一维深度可分离卷积神经网络,在不使用语音活动检测(VAD)的情况下实现文本无关说话人验证的最先进性能?
  • RQ2将输入语音段长度缩短至 8 秒,与完整长度输入相比,对等错误率(EER)有何影响?
  • RQ3在加法边际角损失(AAM)中,边际 m 与缩放因子 s 的最优组合参数是什么,能最大程度提升验证准确率?
  • RQ4使用 MUSAN 和 RIR 进行数据增强,对 VoxCeleb1 测试集上的模型鲁棒性与 EER 有何影响?
  • RQ5一个仅含 500 万个参数的模型,能否在说话人验证任务中超越更大参数量的当前最先进系统?

主要发现

  • SpeakerNet-M 在仅 500 万个参数且无需 VAD 的情况下,于 VoxCeleb1 清洗集上实现 2.10% 的等错误率(EER),在 VoxCeleb1 测试集上实现 2.29% 的 EER,性能接近当前最先进水平。
  • 采用 AAM 损失(m=0.2,s=30)训练的模型在 VoxCeleb1 清洗集上达到最优 EER 2.10%,优于标准交叉熵损失训练。
  • 使用 MUSAN 噪声进行数据增强显著改善了 EER,而 RIR 增强在近场录音(如 VoxCeleb1)上效果有限。
  • 将输入语音段长度缩短至 8 秒,可使训练时间减少约 50%,性能下降可忽略,EER 仅轻微上升,相比完整长度输入。
  • SpeakerNet-L(800 万个参数)在 VoxCeleb1 清洗集上实现 2.10% 的 EER,在测试集上实现 2.32% 的 EER,优于 Kaldi 基线(3.10% EER),并接近 SOTA BUT 系统(清洗集 1.22% EER)。
  • 该模型的架构可无缝集成到端到端自动语音识别(ASR)系统中,因其与 ASR 系统共享相同的 QuartzNet 基编码器,支持联合训练与部署。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。