QUICK REVIEW

[논문 리뷰] The SpeakIn System for VoxCeleb Speaker Recognition Challange 2021

Miao Zhao, Yufeng Ma|arXiv (Cornell University)|2021. 09. 05.

Speech Recognition and Synthesis참고 문헌 25인용 수 36

한 줄 요약

SpeakIn 팀은 VoxSRC 2021 트랙 1 및 2에서 오프라인 및 온라인 데이터 증강, RepVGG 및 ResNet 백본, MQMHA 풀링, 도메인 기반 대-margin 파인튜닝, 그리고 백엔드 보정을 통해 최고 성능을 달성하는 VoxSRC 2021 시스템을 제시합니다. 0.1034 minDCF 및 1.846% EER를 달성합니다.

ABSTRACT

This report describes our submission to the track 1 and track 2 of the VoxCeleb Speaker Recognition Challenge 2021 (VoxSRC 2021). Both track 1 and track 2 share the same speaker verification system, which only uses VoxCeleb2-dev as our training set. This report explores several parts, including data augmentation, network structures, domain-based large margin fine-tuning, and back-end refinement. Our system is a fusion of 9 models and achieves first place in these two tracks of VoxSRC 2021. The minDCF of our submission is 0.1034, and the corresponding EER is 1.8460%.

연구 동기 및 목표

VoxCeleb2-dev 데이터만을 사용하여 VoxSRC 2021의 Robust한 화자 검증을 자극한다.
학습 다양성 확장을 위한 데이터 증강 전략(오프라인 및 온라인)을 탐구한다.
발화 단위 임베딩을 개선하는 새로운 백본과 풀링 기법을 개발한다.
대-margin 파인튜닝과 점수 보정을 적용하여 검증 성능을 극대화한다.

제안 방법

Tracks 1 및 2에 대해 VoxCeleb2-dev를 유일한 학습 세트로 사용한다.
3배 속도 증강과 오프라인 Kaldi 기반 증강(RIRs, MUSAN) 및 온라인 증강 체인을 적용한다.
RepVGG 및 ResNet 백본을 MQMHA 주의 기반 풀링과 결합해 실험한다.
서브센터 AM/Arc 변형 및 Inter-TopK 페널티를 포함한 손실 개선과 도메인 기반 대-margin 파인튜닝을 수행한다.
백엔드에서 코사인 스코어링과 길이 정규화를 활용한 AS-Norm 및 Quality Measure Functions(QMF)를 도입한다.
최종 VoxSRC 2021 제출 결과를 얻기 위해 9개의 서브시스템을 융합한다.

실험 결과

연구 질문

RQ1오프라인 및 온라인 데이터 증강 전략이 VoxCeleb 기반 데이터셋에서의 화자 검증 성능에 어떤 영향을 미치는가?
RQ2RepVGG 백본과 MQMHA 풀링 체계가 임베딩 품질에 어떤 영향을 주는가?
RQ3도메인 기반 대-margin 파인튜닝과 백엔드 보정(AS-Norm, QMF)이 VoxSRC 조건에서 검증 지표를 최적화하게 하는가?

주요 결과

9개의 모델 융합이 VoxSRC 2021 Track 1과 Track 2에서 1위를 달성했다.
VoxSRC 2021 평가에서 최종 minDCF 0.1034 및 EER 1.846%를 달성했다.
서브시스템 분석은 더 큰 모델(예: RepVGG-B1, ResNet-101)이 더 작은 베이스라인보다 우수한 성능을 보였으나, 매우 큰 모델은 VoxCeleb2-dev에서 과적합될 수 있음을 시사했다.
온라인 증강은 오프라인 증강을 보완하지만 오프라인 모델이 가장 강력한 성능을 낳았다.
도메인 기반 대-margin 파인튜닝 및 AS-Norm/QMF 보정은 베 baseline에 비해 EER 및 minDCF를 크게 감소시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.