[论文解读] VoxSRC 2021: The Third VoxCeleb Speaker Recognition Challenge
本文描述 VoxSRC 2021 挑战及其赛道(验证与说话人分段)、数据、评估指标、基线、顶尖方法、多语言焦点及结果。
The third instalment of the VoxCeleb Speaker Recognition Challenge was held in conjunction with Interspeech 2021. The aim of this challenge was to assess how well current speaker recognition technology is able to diarise and recognise speakers in unconstrained or `in the wild' data. The challenge consisted of: (i) the provision of publicly available speaker recognition and diarisation data from YouTube videos together with ground truth annotation and standardised evaluation software; and (ii) a virtual public challenge and workshop held at Interspeech 2021. This paper outlines the challenge, and describes the baselines, methods and results. We conclude with a discussion on the new multi-lingual focus of VoxSRC 2021, and on the progression of the challenge since the previous two editions.
研究动机与目标
- 在野外无约束、多语言条件下促进并评估说话人识别。
- 提供公开发布的数据、评估工具,以及公开挑战框架。
- 评估自 VoxSRC 2019 与 2020 在验证与分段任务方面的进展。
- 分析多语言对验证性能及语言鲁棒性的影响。
- 在适用情况下促进开放的多模态方法(音频-视频)。
提出的方法
- 公开发布的基于 VoxCeleb 的验证数据集(Tracks 1–3),新增多语言测试焦点。
- 四个赛道:Speaker Verification – Closed, Open, Self-supervised (Closed),以及 Speaker Diarisation – Open。
- 标准评估指标:验证用 minDCF 和 EER;分段用 DER 和 JER。
- 公开基线:用于验证的 VoxSRC 2020 Clova 基线;使用对比学习的自监督基线;带滑动窗口和聚类流程的分段基线。
- 表现最好的方法采用强大的 CNN 主干(RepVGG、ResNet)、高级数据增强、两阶段训练(AM-Softmax/AAM-softmax 与大边距微调),以及自监督赛道的多模态(音视频)融合。
- 多语言分析涉及语言对检验及 ROC 分析,以评估同语言与跨语言验证。
实验结果
研究问题
- RQ1在无限制、多语言条件下,最先进的说话人验证与分段系统的表现如何?
- RQ2多语言数据对常见语言的验证准确性有何影响?
- RQ3在 VoxSRC 2021 中,自监督和多模态方法是否优于有监督基线?
- RQ4在多说话人片段的挑战下,分段的领先方法与数据融合策略是什么?
- RQ5在相似测试协议下,VoxSRC 2019–2021 各版的性能演变如何?
主要发现
| Track / Table | Headers | (if applicable) | |||
|---|---|---|---|---|---|
| Table 3: Winners for the speaker verification tracks (Tracks 1, 2 and 3). | Rank | Team Name | Organisation | DER | JER |
| - | Baseline | Provided | 0.351 | 38.72 | |
| JTBD [ 13 ] | IDLab, Ghent University, Belgium | 0.129 | 2.27 | ||
| Beijing ZKJ-NPU [ 14 ] | Beijing ZKJ Technology Ltd, Northwestern Polytechnical Uni. | 0.118 | 2.84 | ||
| snowstar [ 15 ] | SpeakIn Technologies Co. Ltd. | 0.103 | 1.85 | ||
| Table 4: Winners for the speaker diarisation track (Track 4). | Rank | Team Name | Organisation | DER | JER |
| - | Baseline | Provided | 17.99 | 38.72 | |
| njz [ 19 ] | Tencent AI Lab, China | 5.32 | 24.50 | ||
| chen2101 [ 20 ] | Bytedance SAMI lab, China | 5.15 | 26.02 | ||
| strato [ 21 ] | Duke Kunshan Uni., China & Duke Uni., USA & Lenovo Research, China | 5.07 | 29.16 | ||
| Table 5: Comparison of methods (% EER) on the 2019, 2020, and 2021 test sets. | Method | 2019 test | 2020 test | 2021 test | |
| VoxSRC 2019 winner [ 53 ] | 1.42 | - | - | ||
| VoxSRC 2020 winner [ 36 ] | 0.80 | 3.73 | - | ||
| VoxSRC 2020 2nd place [ 54 ] | 0.75 | 3.81 | - | ||
| VoxSRC 2021 winner [ 15 ] | 0.57 | - | 1.85 | ||
| VoxSRC 2021 2nd place [ 14 ] | 0.62 | - | 2.84 |
- 顶级验证赛道(1 与 2)由使用 RepVGG/ResNet 主干、广泛数据增强与两阶段训练的队伍夺冠,成就为 minDCF 0.18 与 EER 2.84%(第二名)及 0.103 minDCF / 1.85% EER(第一名)。
- 自监督赛道(Track 3)通过音视频数据和逐步伪标签的多模态融合,达到 0.341 minDCF 和 5.59% EER。
- 分段赛道 4 的结果显示 DER 5.07%(冠军),竞争区间内的 DER,前几名之间差距接近(1st 与 10th 之间的 DER 差距小于 1%)。
- 多语言分析指出基线模型存在语言相关的性能方差,而获胜方法在各语言上均有改善,尽管样本较少的语言仍存在差异。
- 2021 年的多语言测试集通常比前几年的挑战性更大,在用 2019 测试集评估时,相较于 2019–2020 获胜者有显著的性能提升,显示出快速的方法进展。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。