QUICK REVIEW

[论文解读] The SpeakIn System for VoxCeleb Speaker Recognition Challange 2021

Miao Zhao, Yufeng Ma|arXiv (Cornell University)|Sep 5, 2021

Speech Recognition and Synthesis参考文献 25被引用 36

一句话总结

SpeakIn 团队提出的 VoxSRC 2021 系统，使用离线和在线数据增强、RepVGG 和 ResNet 骨干、MQMHA 池化、基于域的大-margin 微调，以及后端标定，在 VoxSRC 2021 Track 1 和 Track 2 上取得顶尖表现，0.1034 的 minDCF 和 1.846% 的 EER。

ABSTRACT

This report describes our submission to the track 1 and track 2 of the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC 2021). Both track 1 and track 2 share the same speaker verification system, which only uses VoxCeleb2-dev as our training set. This report explores several parts, including data augmentation, network structures, domain-based large margin fine-tuning, and back-end refinement. Our system is a fusion of 9 models and achieves first place in these two tracks of VoxSRC 2021. The minDCF of our submission is 0.1034, and the corresponding EER is 1.8460%.

研究动机与目标

为 VoxSRC 2021 提供以 VoxCeleb2-dev 数据为唯一训练集合的鲁棒说话人验证研究。
探索离线和在线数据增强策略，以拓展训练多样性。
开发新的骨干网和池化方法，以提升说话片段级嵌入。
应用大-margin 微调和分数标定，最大化验证性能。

提出的方法

在 Tracks 1 和 2 中仅使用 VoxCeleb2-dev 进行训练。
应用 3 倍速率数据增强，加上基于离线的 Kaldi 增强（RIRs、MUSAN）以及一个在线增强链。
尝试 RepVGG 与 ResNet 骨干网，结合注意力池化（MQMHA）。
通过子中心 AM/Arc 变体和 Inter-TopK 惩罚来增强损失函数，并进行基于域的大-margin 微调。
在后端引入 AS-Norm 与 Quality Measure Functions (QMF)，配合余弦得分和长度归一化。
融合 9 个子系统，获得最终的 VoxSRC 2021 提交结果。

实验结果

研究问题

RQ1离线与在线数据增强策略如何影响基于 VoxCeleb 派生数据集的说话人验证性能？
RQ2使用 RepVGG 骨干网和 MQMHA 池化方案对嵌入质量有何影响？
RQ3基于域的大-margin 微调与后端标定（AS-Norm、QMF）是否能在 VoxSRC 条件下达到最优的验证指标？

主要发现

9 个子系统的融合在 VoxSRC 2021 Track 1 与 Track 2 上获得第一名。
在 VoxSRC 2021 评估中，最终 minDCF 为 0.1034，EER 为 1.846%。
子系统分析表明更大的模型（如 RepVGG-B1、ResNet-101）在性能上优于较小的基线，但非常大的模型在 VoxCeleb2-dev 上可能出现过拟合。
在线增强对离线增强具有辅助作用，但离线模型表现最为强劲。
基于域的大-margin 微调和 AS-Norm/QMF 标定显著降低 EER 和 minDCF，相较基线有明显提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。