Skip to main content
QUICK REVIEW

[论文解读] The SpeakIn System for VoxCeleb Speaker Recognition Challange 2021

Miao Zhao, Yufeng Ma|arXiv (Cornell University)|Sep 5, 2021
Speech Recognition and Synthesis参考文献 25被引用 36
一句话总结

SpeakIn 团队提出的 VoxSRC 2021 系统,使用离线和在线数据增强、RepVGG 和 ResNet 骨干、MQMHA 池化、基于域的大-margin 微调,以及后端标定,在 VoxSRC 2021 Track 1 和 Track 2 上取得顶尖表现,0.1034 的 minDCF 和 1.846% 的 EER。

ABSTRACT

This report describes our submission to the track 1 and track 2 of the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC 2021). Both track 1 and track 2 share the same speaker verification system, which only uses VoxCeleb2-dev as our training set. This report explores several parts, including data augmentation, network structures, domain-based large margin fine-tuning, and back-end refinement. Our system is a fusion of 9 models and achieves first place in these two tracks of VoxSRC 2021. The minDCF of our submission is 0.1034, and the corresponding EER is 1.8460%.

研究动机与目标

  • 为 VoxSRC 2021 提供以 VoxCeleb2-dev 数据为唯一训练集合的鲁棒说话人验证研究。
  • 探索离线和在线数据增强策略,以拓展训练多样性。
  • 开发新的骨干网和池化方法,以提升说话片段级嵌入。
  • 应用大-margin 微调和分数标定,最大化验证性能。

提出的方法

  • 在 Tracks 1 和 2 中仅使用 VoxCeleb2-dev 进行训练。
  • 应用 3 倍速率数据增强,加上基于离线的 Kaldi 增强(RIRs、MUSAN)以及一个在线增强链。
  • 尝试 RepVGG 与 ResNet 骨干网,结合注意力池化(MQMHA)。
  • 通过子中心 AM/Arc 变体和 Inter-TopK 惩罚来增强损失函数,并进行基于域的大-margin 微调。
  • 在后端引入 AS-Norm 与 Quality Measure Functions (QMF),配合余弦得分和长度归一化。
  • 融合 9 个子系统,获得最终的 VoxSRC 2021 提交结果。

实验结果

研究问题

  • RQ1离线与在线数据增强策略如何影响基于 VoxCeleb 派生数据集的说话人验证性能?
  • RQ2使用 RepVGG 骨干网和 MQMHA 池化方案对嵌入质量有何影响?
  • RQ3基于域的大-margin 微调与后端标定(AS-Norm、QMF)是否能在 VoxSRC 条件下达到最优的验证指标?

主要发现

  • 9 个子系统的融合在 VoxSRC 2021 Track 1 与 Track 2 上获得第一名。
  • 在 VoxSRC 2021 评估中,最终 minDCF 为 0.1034,EER 为 1.846%。
  • 子系统分析表明更大的模型(如 RepVGG-B1、ResNet-101)在性能上优于较小的基线,但非常大的模型在 VoxCeleb2-dev 上可能出现过拟合。
  • 在线增强对离线增强具有辅助作用,但离线模型表现最为强劲。
  • 基于域的大-margin 微调和 AS-Norm/QMF 标定显著降低 EER 和 minDCF,相较基线有明显提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。