QUICK REVIEW

[논문 리뷰] Augmentation adversarial training for unsupervised speaker recognition.

Jaesung Huh, Hee Soo Heo|arXiv (Cornell University)|2020. 07. 23.

Speech Recognition and Synthesis참고 문헌 42인용 수 35

한 줄 요약

이 논문은 채널 변동을 시뮬레이션하는 데이터 증강 기법에 대해 모델의 강건성을 높임으로써 비지도 화자 인식 성능을 향상시키기 위해 증강 적대적 훈련을 제안한다. 이러한 증강 기법에 대해 불변성을 학습함으로써 모델은 화자 신원과 채널 특성 간의 분리 학습을 가능하게 하여, VoxCeleb 및 VOiCES에서 최신 기술 수준(SOTA) 성능을 달성하며 인간 수준의 정확도를 초월한다.

ABSTRACT

The goal of this work is to train robust speaker recognition models without speaker labels. Recent works on unsupervised speaker representations are based on contrastive learning in which they encourage within-utterance embeddings to be similar and across-utterance embeddings to be dissimilar. However, since the within-utterance segments share the same acoustic characteristics, it is difficult to separate the speaker information from the channel information. To this end, we propose augmentation adversarial training strategy that trains the network to be discriminative for the speaker information, while invariant to the augmentation applied. Since the augmentation simulates the acoustic characteristics, training the network to be invariant to augmentation also encourages the network to be invariant to the channel information in general. Extensive experiments on the VoxCeleb and VOiCES datasets show significant improvements over previous works using self-supervision, and the performance of our self-supervised models far exceed that of humans.

연구 동기 및 목표

비지도 화자 표현 학습에서 화자 신원과 채널 특성 간의 분리 문제를 해결한다.
공유된 청각 특성로 인해 문장 내 임베딩 간 유사도가 높아지는 비지도 환경에서의 대비 학습의 한계를 극복한다.
채널 효과를 시뮬레이션하는 데이터 증강 기법에 대한 불변성을 향상시키는 훈련 전략을 개발한다.
화자 레이블이 필요 없이 자기 지도 학습 모델의 일반화 능력과 강건성을 향상시킨다.
기존 자기 지도 학습 방법과 비교해 표준 벤치마크에서 뛰어난 성능을 달성하며, 인간 수준의 정확도를 초월한다.

제안 방법

시간 마스킹 및 주파수 마스킹과 같은 데이터 증강 기법을 적용하여 음성 데이터에서 채널 변동을 시뮬레이션한다.
동일한 문장의 임베딩 간 유사도를 높이고 다른 화자 간의 임베딩 간 거리를 벌이는 대비 학습 목표를 사용한다.
이러한 증강 기법에 대해 불변성을 유도하면서도 화자 식별 능력을 유지하도록 적대적 전략을 사용해 모델을 훈련한다.
증강 기법에 의해 유도되는 변동성에 강건한 네트워크를 최적화함으로써 채널 특화 아티팩트를 무시하도록 암묵적으로 학습한다.
증강 기법이 실제 채널 효과를 모방하므로, 이러한 증강 기법에 대한 불변성은 실제 채널 변동에 대한 불변성으로 일반화됨을 활용한다.
화자 수준의 애너테이션 없이 자기 지도 대비 손실을 사용해 엔드 투 엔드로 훈련한다.

실험 결과

연구 질문

RQ1화자 레이블이 없는 상황에서 데이터 증강 기법을 활용한 적대적 훈련이 화자 표현 학습에 기여하는가?
RQ2데이터 증강 기법에 대한 불변성이 화자 인식에서 채널 변동에 대한 강건성 향상에 얼마나 기여하는가?
RQ3제안된 방법이 표준 화자 인식 벤치마크에서 기존 자기 지도 대비 학습 방법을 능가하는가?
RQ4이 방법을 통해 훈련된 자기 지도 모델이 화자 인식에서 인간 수준의 성능을 초월할 수 있는가?
RQ5VoxCeleb 및 VOiCES와 같은 다양한 데이터셋 간의 일반화 능력은 얼마나 우수한가?

주요 결과

제안된 증강 적대적 훈련 방법은 비지도 화자 인식에서 VoxCeleb 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성한다.
VOiCES 데이터셋에서는 이전 자기 지도 학습 방법보다 뚜렷한 성능 향상을 보였다.
VoxCeleb 및 VOiCES 데이터셋에서 자기 지도 모델의 성능이 인간의 성능을 초월한다.
증강 기법에 의해 유도되는 변동성에 대한 불변성을 학습함으로써 화자 신원과 채널 특성 간의 효과적인 분리가 가능해졌다.
모델은 증강 기법에 대한 강건성 덕분에 도전적인 채널 조건에서도 뛰어난 성능을 유지한다.
결과적으로 증강 기법에 대한 불변성이 실제 음성의 채널 변동에 잘 일반화됨을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.