[论文解读] The SpeakIn System for VoxCeleb Speaker Recognition Challange 2021
SpeakIn 团队提出的 VoxSRC 2021 系统,使用离线和在线数据增强、RepVGG 和 ResNet 骨干、MQMHA 池化、基于域的大-margin 微调,以及后端标定,在 VoxSRC 2021 Track 1 和 Track 2 上取得顶尖表现,0.1034 的 minDCF 和 1.846% 的 EER。
This report describes our submission to the track 1 and track 2 of the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC 2021). Both track 1 and track 2 share the same speaker verification system, which only uses VoxCeleb2-dev as our training set. This report explores several parts, including data augmentation, network structures, domain-based large margin fine-tuning, and back-end refinement. Our system is a fusion of 9 models and achieves first place in these two tracks of VoxSRC 2021. The minDCF of our submission is 0.1034, and the corresponding EER is 1.8460%.
研究动机与目标
- 为 VoxSRC 2021 提供以 VoxCeleb2-dev 数据为唯一训练集合的鲁棒说话人验证研究。
- 探索离线和在线数据增强策略,以拓展训练多样性。
- 开发新的骨干网和池化方法,以提升说话片段级嵌入。
- 应用大-margin 微调和分数标定,最大化验证性能。
提出的方法
- 在 Tracks 1 和 2 中仅使用 VoxCeleb2-dev 进行训练。
- 应用 3 倍速率数据增强,加上基于离线的 Kaldi 增强(RIRs、MUSAN)以及一个在线增强链。
- 尝试 RepVGG 与 ResNet 骨干网,结合注意力池化(MQMHA)。
- 通过子中心 AM/Arc 变体和 Inter-TopK 惩罚来增强损失函数,并进行基于域的大-margin 微调。
- 在后端引入 AS-Norm 与 Quality Measure Functions (QMF),配合余弦得分和长度归一化。
- 融合 9 个子系统,获得最终的 VoxSRC 2021 提交结果。
实验结果
研究问题
- RQ1离线与在线数据增强策略如何影响基于 VoxCeleb 派生数据集的说话人验证性能?
- RQ2使用 RepVGG 骨干网和 MQMHA 池化方案对嵌入质量有何影响?
- RQ3基于域的大-margin 微调与后端标定(AS-Norm、QMF)是否能在 VoxSRC 条件下达到最优的验证指标?
主要发现
- 9 个子系统的融合在 VoxSRC 2021 Track 1 与 Track 2 上获得第一名。
- 在 VoxSRC 2021 评估中,最终 minDCF 为 0.1034,EER 为 1.846%。
- 子系统分析表明更大的模型(如 RepVGG-B1、ResNet-101)在性能上优于较小的基线,但非常大的模型在 VoxCeleb2-dev 上可能出现过拟合。
- 在线增强对离线增强具有辅助作用,但离线模型表现最为强劲。
- 基于域的大-margin 微调和 AS-Norm/QMF 标定显著降低 EER 和 minDCF,相较基线有明显提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。