QUICK REVIEW

[논문 리뷰] BUT System Description to VoxCeleb Speaker Recognition Challenge 2019

Hossein Zeinali, Shuai Wang|arXiv (Cornell University)|2019. 10. 16.

Speech Recognition and Synthesis참고 문헌 12인용 수 79

한 줄 요약

BUT 팀의 VoxSRC 2019를 위한 네 가지 CNN 기반 시스템(x-vector 및 ResNet34 변형)의 융합을 설명하며, Fixed와 Open 조건 제출에서 각각 1.42%와 1.26% EER을 달성했다.

ABSTRACT

In this report, we describe the submission of Brno University of Technology (BUT) team to the VoxCeleb Speaker Recognition Challenge (VoxSRC) 2019. We also provide a brief analysis of different systems on VoxCeleb-1 test sets. Submitted systems for both Fixed and Open conditions are a fusion of 4 Convolutional Neural Network (CNN) topologies. The first and second networks have ResNet34 topology and use two-dimensional CNNs. The last two networks are one-dimensional CNN and are based on the x-vector extraction topology. Some of the networks are fine-tuned using additive margin angular softmax. Kaldi FBanks and Kaldi PLPs were used as features. The difference between Fixed and Open systems lies in the used training data and fusion strategy. The best systems for Fixed and Open conditions achieved 1.42% and 1.26% ERR on the challenge evaluation set respectively.

연구 동기 및 목표

VoxSRC 2019에서 Brno University of Technology (BUT)의 고정(Fixed) 및 개방(Open) 트랙 제출을 선보인다.
다양한 학습 데이터 규칙에서 4개의 CNN 기반 임베딩 시스템(x-vector 및 ResNet34 변형)의 성능을 비교한다.
백엔드, 융합 전략, 보정 기법을 분석하여 VoxCeleb 테스트 세트에서 경쟁력 있는 EER를 달성한다.

제안 방법

4개의 CNN 기반 임베딩 네트워크를 사용한다(PLDA 백엔드를 갖춘 두 개의 x-vector TDNN 변형과 코사인 백엔드를 갖춘 두 개의 ResNet34 변형).
일부 네트워크를 미세 조정하기 위해 추가 각도 여백 손실(additive angular margin loss)을 실험한다.
고정 조건에 대해 VoxCeleb-2 개발 세트에 대규모 증강(RIR, Musan)을 적용하여 학습; 개방(Open) 조건을 위해 VoxCeleb-1/2, LibriSpeech, DeepMine를 포함하여 데이터를 확장한다.
가우시안 PLDA 및 적응 점수 정규화를 가진 코사인 스코딩을 적용하고, Fixed(가중 평균) 및 Open(로지스틱 회귀) 조건에서 시스템 점수를 보정하고 융합한다.

실험 결과

연구 질문

RQ1Fixed 및 Open 조건에서 여러 CNN 기반 임베딩(x-vector 및 ResNet34)을 결합하는 것이 VoxSRC 2019 성능에 미치는 영향은 무엇인가?
RQ2백엔드(PLDA 대 코사인)와 증강 전략이 검증 정확도에 어떤 영향을 미치는가?
RQ3VoxCeleb 테스트 세트에서 최적의 EER 및 MinDCF를 제공하는 융합 및 보정 전략은 무엇인가?
RQ4학습 데이터 선택(Fixed: VoxCeleb-2만; Open: VoxCeleb-1/2, LibriSpeech, DeepMine)이 결과에 어떤 영향을 미치는가?
RQ5미세 조정 시 추가 각도 여백 손실이 ResNet 및 x-vector 시스템의 판별력을 향상시키는가?

주요 결과

고정 조건 융합에서 챌린지 평가 세트에서 1.42% EER을 달성했다.
개방 조건 융합에서 평가 세트에서 1.26% EER을 달성했다.
더 다양한 데이터에 노출되어 Open 조건 시스템이 일부 지표에서 고정 조건의 상대를 능가한다(데이터가 더 다양해서).
코사인 스코어링과 적응 점수 정규화를 이용한 ResNet34 기반 임베딩이 Open 환경에서 강력한 성능을 보인다.
고정은 가중 평균 융합, 개방은 로지스틱 회귀 보정 융합으로 개별 시스템 대비 현저한 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.