[논문 리뷰] Few Shot Speaker Recognition using Deep Neural Networks
이 논문은 prototypical loss를 가진 CNN과 CapsuleNet을 사용한 few-shot 화자 인식과 Capsule 클래스 벡터를 일반화된 임베딩 공간으로 매핑하는 오토 인코더를 제시하며, VoxCeleb1 및 VCTK에서 매우 짧은 3초 발화로 평가한다.
The recent advances in deep learning are mostly driven by availability of large amount of training data. However, availability of such data is not always possible for specific tasks such as speaker recognition where collection of large amount of data is not possible in practical scenarios. Therefore, in this paper, we propose to identify speakers by learning from only a few training examples. To achieve this, we use a deep neural network with prototypical loss where the input to the network is a spectrogram. For output, we project the class feature vectors into a common embedding space, followed by classification. Further, we show the effectiveness of capsule net in a few shot learning setting. To this end, we utilize an auto-encoder to learn generalized feature embeddings from class-specific embeddings obtained from capsule network. We provide exhaustive experiments on publicly available datasets and competitive baselines, demonstrating the superiority and generalization ability of the proposed few shot learning pipelines.
연구 동기 및 목표
- 매우 제한된 데이터와 짧은 발화에서의 실용적인 화자 인식을 동기화한다.
- 스펙트로그램 입력과 프로토타이핑 손실을 사용한 few-shot 학습 파이프라인을 제안한다.
- CNN 및 Capsule Network 접근법을 평가하고 일반화 가능성을 높이기 위한 오토 인코더를 도입한다.
- 프로토타이핑 손실이 여러 아키텍처에서 few-shot 성능을 개선한다를 보인다.
제안 방법
- 오디오를 단일 채널 16 kHz, 16비트 스트림으로 변환하고 3초 발화당 128x300 스펙트로그램을 계산한다.
- feature 추출기로 CNN 베이스라인(VGG-M, ResNet-34)과 수정된 Capsule Network(CapsuleNet-M)을 사용한다.
- CapsuleNet에 오토 인코더를 확장하여 프로토타이핑 손실에 적합한 일반화 임베딩을 생성한다.
- few-shot 분류를 위한 임베딩 공간에서 클래스 프로토타입을 학습하기 위해 프로토타이핑 손실을 적용한다.
- Capsule 클래스 벡터에서 임베딩을 생성하는 수축형(auto- encoder)을 도입하여 few-shot 설정(CapsuleNet-MA)에 적합하게 한다.
- 엔드투엔드로 학습하고 5-way 및 20-way에서 1-shot 및 5-shot 조건으로 평가한다.
실험 결과
연구 질문
- RQ1few-shot 학습이 3초 발화에서 정확한 화자 식별을 가능하게 하는가?
- RQ2CNN 및 Capsule Network 접근법은 few-shot 조건에서 어떻게 비교되는가?
- RQ3Capsule에서 파생된 클래스 벡터를 오토 인코더를 통해 매핑하면 보지 않은 화자에 대한 일반화가 촉진되는가?
- RQ4프로토타이핑 손실이 아키텍처 간 few-shot 화자 인식 성능을 향상시키는가?
주요 결과
- ResNet-34가 표준(비- few-shot) VoxCeleb1 부분 집합에서 다른 네트워크보다 크게 우수하며, 50 클래스에서 Top-1 90.37%와 Top-5 98.13%, 200 클래스에서 Top-1 71.48%와 Top-5 88.45%를 달성한다.
- few-shot 설정에서 ResNet-34는 5-way VoxCeleb1에서 1-shot 79.97% 및 5-shot 91.50%를 달성하는 반면, CapsuleNet-MA는 1-shot 53.62% 및 5-shot 82.93%를, VGG-M은 1-shot 52.42% 및 5-shot 82.10%를 달성한다.
- CapsuleNet-MA는 여러 few-shot 설정에서 VGG-M보다 우수하고 적은 매개변수로 ResNet의 성능에 근접하며, 표준 CapsuleNet(CapsuleNet-M)은 ResNet보다 뒤처지지만 VGG-M과는 여전히 경쟁력이 있다.
- VCTK 코퍼스에서 비-few-shot 결과는 CapsuleNet-M 91.95% Top-1 및 98.13% Top-5, VGG-M 95.25% Top-1 및 99.45% Top-5, ResNet-34 96.91% Top-1 및 99.91% Top-5로 나타난다.
- few-shot VCTK에서 CapsuleNet-MA는 5-way 1-shot 65.26% 및 5-way 5-shot 91.28%를, 반면 ResNet-34는 5-way 1-shot 80.96% 및 5-way 5-shot 96.46%를 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.