Skip to main content
QUICK REVIEW

[论文解读] VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge

Arsha Nagrani, Joon Son Chung|arXiv (Cornell University)|Dec 12, 2020
Speech Recognition and Synthesis参考文献 50被引用 65
一句话总结

该论文描述第二届 VoxCeleb 讲话人识别挑战(VoxSRC2020),涵盖其任务(验证与 diarisation),新数据集(VoxConverse、VoxMovies),评估指标、基线、提交系统、结果以及工作坊成果。

ABSTRACT

We held the second installment of the VoxCeleb Speaker Recognition Challenge in conjunction with Interspeech 2020. The goal of this challenge was to assess how well current speaker recognition technology is able to diarise and recognize speakers in unconstrained or `in the wild' data. It consisted of: (i) a publicly available speaker recognition and diarisation dataset from YouTube videos together with ground truth annotation and standardised evaluation software; and (ii) a virtual public challenge and workshop held at Interspeech 2020. This paper outlines the challenge, and describes the baselines, methods used, and results. We conclude with a discussion of the progress over the first installment of the challenge.

研究动机与目标

  • 促进并在非受控、真实世界条件下对说话人识别进行评估(“in the wild”)。
  • 提供公共数据、评估工具和公开挑战以推动说话人验证与 diarisation 的进展。
  • 引入新任务和指标,以超越 EER 的评估范围,包括 diarisation 指标。
  • 提供基线和分析,以衡量自 VoxSRC2019 以来的进展。

提出的方法

  • 两个任务:说话人验证(含四个轨道)和说话人 diarisation(轨道4)。
  • 公共数据集:VoxCeleb 变体、用于域外验证的 VoxMovies、用于 diarisation 的 VoxConverse。
  • 引入使用视觉(人脸)数据进行训练的新自监督轨道(轨道3)。
  • 指标:验证的 minDCF 和 EER; diarisation 的 DER 和 JER。
  • 基线:带 Mel 截频谱图的监督型 Fast ResNet-34、自监督对比基线,以及基于 DIHARD 的 diarisation 基线。
  • 通过 CodaLab 进行评估,提交有时间限制,并在工作坊(Interspeech 2020)举行。

实验结果

研究问题

  • RQ1在不受限、嘈杂和跨域条件下,最先进的说话人验证与 diarisation 系统的表现如何?
  • RQ2自监督方法(有无视觉数据)在说话人验证方面是否接近受监督的表现?
  • RQ3域外数据(电影素材)对验证和 diarisation 性能有何影响?
  • RQ4diarisation 系统如何处理真实视频数据中的多说话人、重叠对话?

主要发现

  • 在各个轨道的说话人验证中,顶尖方法使用 ECAPA-TDNN 与带数据增强和大-margin 损失(AAM-softmax)的 ResNet34 变体。
  • 在自监督轨道中,性能低于完全监督轨道,测试集上的 EER 约为 7.21%,minDCF 约为 0.877。
  • VoxMovies 的域外数据显著增加了任务难度,表明测试集比仅含 VoxCeleb 数据更具挑战性。
  • 对于 diarisation(轨道4),获胜者使用 conformer 基于 CSS、Res2Net embeddings、AM-Softmax 以及 DOVER 融合,DER 为 6.23%、JER 为 21.52%;第二名使用 VB-HMM 后处理,DER 8.12%、JER 18.35%。
  • 在所有验证轨道中,冠军提交明显优于 2019 年的获胜者,显示出在一年内的显著进展(例如轨道1:0.177 minDCF,冠军 EER 为 3.73%)。
  • VoxSRC2020 的测试集比 VoxSRC2019 更具挑战性,这一点通过让 2019 年获胜者在 2020 测试集上重新运行时的性能差距得以体现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。