QUICK REVIEW

[논문 리뷰] Representation Selective Self-distillation and wav2vec 2.0 Feature Exploration for Spoof-aware Speaker Verification

Jin Woo Lee, Eungbeom Kim|arXiv (Cornell University)|2022. 04. 06.

Speech Recognition and Synthesis참고 문헌 36인용 수 13

한 줄 요약

이 논문은 wav2vec 2.0 기반의 대응 조치 네트워크에서 분리된 표현을 활용하여 가짜 음성 탐지 능력을 향상시키는 스피커 인식(SASV) 시스템을 제안한다. 표현 선택적 자기 distillation(RSSD)을 통해 SASV 챌린지 2022 데이터셋에서 1.08%의 동등 오류율(EER)을 달성하여, 자기 지율적 특징 distillation을 통해 스피커 인식과 가짜 음성 탐지 기능을 효과적으로 통합함으로써 기존 베이스라인을 능가한다.

ABSTRACT

Text-to-speech and voice conversion studies are constantly improving to the extent where they can produce synthetic speech almost indistinguishable from bona fide human speech. In this regard, the importance of countermeasures (CM) against synthetic voice attacks of the automatic speaker verification (ASV) systems emerges. Nonetheless, most end-to-end spoofing detection networks are black-box systems, and the answer to what is an effective representation for finding artifacts remains veiled. In this paper, we examine which feature space can effectively represent synthetic artifacts using wav2vec 2.0, and study which architecture can effectively utilize the space. Our study allows us to analyze which attribute of speech signals is advantageous for the CM systems. The proposed CM system achieved 0.31% equal error rate (EER) on ASVspoof 2019 LA evaluation set for the spoof detection task. We further propose a simple yet effective spoofing aware speaker verification (SASV) method, which takes advantage of the disentangled representations from our countermeasure system. Evaluation performed with the SASV Challenge 2022 database show 1.08% of SASV EER. Quantitative analysis shows that using the explored feature space of wav2vec 2.0 advantages both spoofing CM and SASV.

연구 동기 및 목표

XLSR-53 wav2vec 2.0 모델의 어느 층이 합성 음성 아티팩트를 탐지하는 데 가장 효과적인 특징 공간을 제공하는가를 규명하는 것.
최적의 자기 지율적 특징과 결합했을 때, 경량 백엔드 모델이 복잡한 아키텍처를 능가할 수 있는가를 평가하는 것.
대응 조치 네트워크에서 유도된 분리된 표현을 활용하여 단순하면서도 효과적인 스피커 인식(SASV) 시스템을 개발하는 것.
자기 distillation이 스피커 인식 성능을 향상시키기 위해 가짜 음성 대응 조치 임베딩을 선택적으로 활용하는 방식으로 어떻게 적용될 수 있는가를 탐구하는 것.

제안 방법

연구는 원시 음성을 고수준 표현으로 매핑하기 위해 다국어 wav2vec 2.0 모델인 XLSR-53을 프론트엔드 특징 추출기로 사용한다.
XLSR-53의 다양한 Transformer 블록 출력(1층에서 17층까지)을 평가하여, 음성에서 가짜 음성 아티팩트를 가장 잘 드러내는 층을 규명한다.
복잡한 모델들인 AASIST와는 대조적으로, 단순한 백엔드 아키텍처인 주의력 기반 통계 풀링(ASP) 레이어와 완전 연결 레이어를 사용하여 가짜 대조 진위 음성 분류를 수행한다.
제안된 표현 선택적 자기 distillation(RSSD) 모듈은 스피커 임베딩을 가짜 음성 대응 조치 임베딩을 사용해 선택적으로 조절함으로써, 스피커 인식과 가짜 음성 탐지의 공동 최적화를 가능하게 한다.
RSSD 프레임워크는 게이팅 메커니즘과 학습 가능한 변환 레이어를 사용하여 스피커 임베딩을 가짜 가능성에 따라 적응적으로 개선한다.
시스템은 스피커 인식에 대한 대비 손실과 가짜 음성 탐지에 대한 이진 교차 엔트로피 손실을 함께 사용하여 엔드 투 엔드로 훈련되며, 이로써 두 작업의 공동 최적화가 가능해진다.

실험 결과

연구 질문

RQ1사전 훈련된 XLSR-53 wav2vec 2.0 모델의 어느 층이 합성 음성 아티팩트 탐지에 가장 분류 능력이 뛰어난 표현을 생성하는가?
RQ2wav2vec 2.0에서 유도된 최적의 자기 지율적 특징과 함께 사용했을 때, ASP나 MLP와 같은 경량 백엔드 모델이 AASIST와 같은 복잡한 모델을 능가할 수 있는가?
RQ3어떻게 대응 조치 네트워크에서 유도된 분리된 표현을 효과적으로 활용하여 스피커 인식에 가짜 음성에 민감한 시스템을 설계할 수 있는가?
RQ4표현 선택적 자기 distillation이 가짜 음성 공격에 대한 스피커 인식의 강건성에 얼마나 기여하는가?

주요 결과

XLSR-53의 5번째 층이 가짜 음성 탐지에 가장 효과적인 특징 표현을 제공하며, ASVspoof 2019 LA 평가 세트에서 가장 낮은 동등 오류율(EER) 0.31%를 기록했다.
XLSR-53를 프론트엔드로 사용하고 ASP 백엔드를 적용한 모델이 AASIST와 MLP를 모두 능가하여 0.3% EER를 달성했으며, 자기 지율적 특징에 대해 주의력 풀링의 효과를 입증했다.
제안된 RSSD 기반 SASV 시스템은 SASV 챌린지 2022 데이터셋에서 1.08% EER을 기록하여, AASIST나 sinc-convolutional 프론트엔드를 사용한 기존 베이스라인 시스템을 크게 능가했다.
t-SNE 시각화 결과, XLSR-ASP 모델의 임베딩은 진짜 음성과 가짜 음성 간의 분리가 뛰어나며, TTS나 VC와 같은 다양한 공격 유형 간의 구분도 가능했다.
연구 결과, 최적의 자기 지율적 특징 추출기를 사용할 경우, 경량 백엔드(ASP)가 복잡한 백엔드보다 우수한 성능을 보였으며, 이는 특징 품질이 모델 복잡성보다 더 중요하다는 것을 시사한다.
RSSD 모듈은 가짜 음성 대응 조치 출력을 사용해 스피커 임베딩을 선택적으로 조정함으로써 스피커 인식 성능을 향상시켰으며, 낮은 계산 오버헤드로 최신 기술 수준의 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.