Skip to main content
QUICK REVIEW

[논문 리뷰] VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge

Arsha Nagrani, Joon Son Chung|arXiv (Cornell University)|2020. 12. 12.
Speech Recognition and Synthesis참고 문헌 50인용 수 65
한 줄 요약

이 논문은 두 번째 VoxCeleb Speaker Recognition Challenge(VoxSRC2020)을 다루며, 그 과제(검증/확인 및 다이어리제이션), 새로운 데이터셋(VoxConverse, VoxMovies), 평가 지표, 베이스라인, 제출 시스템, 결과, 그리고 워크숍 결과를 포함합니다.

ABSTRACT

We held the second installment of the VoxCeleb Speaker Recognition Challenge in conjunction with Interspeech 2020. The goal of this challenge was to assess how well current speaker recognition technology is able to diarise and recognize speakers in unconstrained or `in the wild' data. It consisted of: (i) a publicly available speaker recognition and diarisation dataset from YouTube videos together with ground truth annotation and standardised evaluation software; and (ii) a virtual public challenge and workshop held at Interspeech 2020. This paper outlines the challenge, and describes the baselines, methods used, and results. We conclude with a discussion of the progress over the first installment of the challenge.

연구 동기 및 목표

  • 제약되지 않은 실제 환경에서의 화자 인식 연구를 촉진하고 평가합니다('in the wild').
  • 공개 데이터, 평가 도구 및 공개 챌린지를 제공하여 화자 검증과 다이어리제이션 분야의 진전을 촉진합니다.
  • EER를 넘어 다이어리제이션 지표를 포함한 평가 범위를 넓히기 위한 새로운 과제와 지표를 도입합니다.
  • VoxSRC2019 이후의 발전을 벤치마크하기 위한 베이스라인과 분석을 제공합니다.

제안 방법

  • 두 가지 과제: 화자 검증(네 개 트랙 포함)와 화자 다이어리제이션(Track 4).
  • 공개 데이터 세트: VoxCeleb 변형들, VoxMovies(도메인 외 검증용), VoxConverse 다이어리제이션용.
  • 학습에 시각적(얼굴) 데이터를 사용하는 새로운 자기지도 학습 트랙(Track 3).
  • 지표: 검증에 대해 minDCF 및 EER; 다이어리제이션에 대해 DER 및 JER.
  • 베이스라인: mel 스펙트로그램을 사용하는 감독형 Fast ResNet-34, 자기지도 대조기반, DIHARD 기반 다이어리제이션 베이스라인.
  • 제한된 시간 제출과 워크숍(Interspeech 2020)과 함께 CodaLab을 통한 평가.

실험 결과

연구 질문

  • RQ1제약되지 않고 시끄럽고 도메인 간 환경에서 최신 화자 검증 및 다이어리제이션 시스템은 얼마나 잘 작동하나요?
  • RQ2시각 데이터 유무에 따른 자기지도 접근법이 화자 검증에서 감독 학습 성능에 근접하나요?
  • RQ3도메인 외 데이터(영화 자료)가 검증 및 다이어리제이션 성능에 어떤 영향을 미치나요?
  • RQ4현실적인 비디오 데이터에서 다이어리제이션 시스템은 다화자, 중첩 대화를 어떻게 처리하나요?

주요 결과

  • 트랙 전반에서 화자 검증의 최상위 방법은 데이터 증가(Data augmentation)와 큰 마진 손실(AAM-softmax)을 사용한 ECAPA-TDNN 및 ResNet34 변형이었다.
  • 자기지도 트랙에서 성능은 완전 감독 트랙보다 낮았고, 테스트 세트에서 EER은 대략 7.21%, minDCF는 대략 0.877이었다.
  • VoxMovies-도메인 외 데이터는 작업 난이도를 크게 증가시켜 VoxCeleb-전용 데이터보다 더 도전적인 테스트 세트를 시사했다.
  • 다이어리제이션(Track 4)에서는 승자가 conformer-based CSS, Res2Net 임베딩, AM-Softmax, DOVER 융합을 사용하여 DER 6.23% 및 JER 21.52%를 달성했고, 2위는 VB-HMM 후처리로 DER 8.12%, JER 18.35%를 달성했다.
  • 검증 트랙 전반에서 우승 제출은 2019년 우승자들을 크게 앞섰으며, 1년 만에 상당한 발전을 강조한다(예: Track 1: 0.177 minDCF, 3.73% EER for the winner).
  • VoxSRC2020 테스트 세트는 VoxSRC2019보다 도전적이었으며, 2019 우승자를 2020 테스트 세트에서 재실행할 때의 성능 차이로 입증된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.