QUICK REVIEW

[논문 리뷰] Speaker Verification using Convolutional Neural Networks

Hossein Salehghaffari|arXiv (Cornell University)|2018. 03. 14.

Speech Recognition and Synthesis참고 문헌 20인용 수 20

한 줄 요약

이 논문은 MFCC 특징으로 훈련된 시아모이즈 컨volutional 신경망(CNN) 아키텍처를 사용하여 말자리 특징과 내부 말자리 불변 표현을 동시에 학습하는 새로운 엔드 투 엔드 화자 확인 시스템을 제안한다. 효과적인 쌍 선택 전략을 사용하여 사전 훈련된 배경 모델을 시아모이즈 학습을 통해 미세조정함으로써, VoxCeleb 데이터셋에서 10.5%의 동등 오류율(EER)을 달성하여 기존의 GMM-UBM 및 i-vector 기반 시스템을 능가한다.

ABSTRACT

In this paper, a novel Convolutional Neural Network architecture has been developed for speaker verification in order to simultaneously capture and discard speaker and non-speaker information, respectively. In training phase, the network is trained to distinguish between different speaker identities for creating the background model. One of the crucial parts is to create the speaker models. Most of the previous approaches create speaker models based on averaging the speaker representations provided by the background model. We overturn this problem by further fine-tuning the trained model using the Siamese framework for generating a discriminative feature space to distinguish between same and different speakers regardless of their identity. This provides a mechanism which simultaneously captures the speaker-related information and create robustness to within-speaker variations. It is demonstrated that the proposed method outperforms the traditional verification methods which create speaker models directly from the background model.

연구 동기 및 목표

말자리에 의존하지 않는 화자 확인을 향상시키기 위해, 화자 간 차이를 포착하면서도 내부 화자 변동에 대해 강건한 분류 가능한 화자 표현을 학습하는 것.
배경 모델 출력의 평균화에 의존하는 전통적 방법의 한계를 극복하는 것.
시아모이즈 학습을 통해 화자 식별력과 강건성을 동시에 최적화하는 엔드 투 엔드 학습 가능한 시스템을 개발하는 것.
활성 쌍 선택이 시아모이즈 네트워크 훈련에서 학습 성능 향상에 미치는 영향을 조사하는 것.
사전 훈련된 CNN을 시아모이즈 학습을 통해 미세조정하는 것이 표준 특징 평균화 방식보다 우수한 화자 임bedding을 생성할 수 있음을 보여주는 것.

제안 방법

두 개의 스트림을 가진 시아모이즈 CNN 아키텍처가 쌍의 음성 문장을 비교하도록 훈련되어, 동일 화자 쌍은 가까이, 다른 화자 쌍은 멀리 떨어진 공유 임베딩 공간을 학습한다.
네트워크는 먼저 교차 엔트로피 손실을 사용하여 배경 모델로 분류기로 사전 훈련한 후, 마진 M이 있는 대비 손실 함수를 사용하여 미세조정된다.
대비 손실는 다음과 같이 정의된다: $ L_W = \frac{1}{N} \sum_{i=1}^N \left[ Y \cdot \frac{1}{2} D_W^2 + (1-Y) \cdot \frac{1}{2} \max\{0, M - D_W\}^2 + \lambda \|W\|_2 \right] $, 여기서 $ D_W $는 임베딩 간 L2 거리이다.
시아모이즈 모델은 초기 학습률 0.00001로 20 에포크 동안 훈련되며, 미세조정 중에 어떤 레이어도 고정하지 않는다.
화자 모델은 각 화자의 음성 문장의 최종 임베딩을 평균하여 생성되며, 평가 시에는 코사인 유사도를 사용하여 점수를 매긴다.
어려운 음성 쌍(음성 간 음성 쌍)을 우선시하는 활성 쌍 선택 방법을 사용하여 훈련 효율성과 성능을 향상시킨다.

실험 결과

연구 질문

RQ1MFCC로 훈련된 시아모이즈 CNN 아키텍처가 GMM-UBM 및 i-vector와 같은 기존 화자 확인 시스템을 능가할 수 있는가?
RQ2사전 훈련된 배경 모델을 시아모이즈 학습을 통해 미세조정하는 것이 단순한 임베딩 평균화 방식보다 화자 표현의 품질을 향상시키는가?
RQ3활성 쌍 선택이 학습된 임베딩 공간의 분류 능력을 향상시키는 데 얼마나 효과적인가?
RQ4화자 확인을 위한 CNN의 엔드 투 엔드 훈련이 이중 단계 접근 방식보다 더 높은 성능을 낼 수 있는가?
RQ5마진 기반 대비 손실을 사용할 경우 화자 임베딩의 일반화 능력에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 VoxCeleb 테스트 세트에서 10.5%의 동등 오류율(EER)을 달성하여 GMM-UBM 기반 시스템(17.1% EER)을 크게 능가했다.
PLDA를 사용한 i-vector 시스템은 11.5% EER을 기록했고, 쌍 선택 기반의 CNN-256는 10.5% EER을 달성하여 명확한 향상을 보였다.
시아모이즈 미세조정 전략은 CNN-2048 기반 시스템(11.3% EER) 대비 1.3%p의 EER 감소를 이끌어내어 분류 능력 향상의 효과를 입증했다.
이 방법은 강력한 기준으로 여겨지는 i-vector + PLDA 시스템을 능가했다.
시아모이즈 훈련 중 활성 쌍 선택을 사용함으로써 랜덤 샘플링 대비 수렴 속도와 성능 향상이 뚜렷하게 향상되었다.
가중치 고정 없이 전체 네트워크를 미세조정한 것이 부분적 미세조정보다 일반화 능력 향상에 더 유리했으며, 이는 분석 결과로 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.