QUICK REVIEW

[논문 리뷰] Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System

Weicheng Cai, Jinkun Chen|arXiv (Cornell University)|2018. 04. 14.

Speech Recognition and Synthesis참고 문헌 16인용 수 37

한 줄 요약

이 논문은 고도로 발전된 인코딩 레이어와 분류 손실 함수를 통해 성능을 향상시키는 통합형 엔드 투 엔드 시스템을 제안한다. 유저 수준의 표현을 생성하기 위해 학습 가능한 사전 인코딩(LDE) 레이어와 자기주의 어텐션 풀링(SAP)을 도입하였으며, 중심 손실과 각도 소프트맥스 손실은 분류 성능을 향상시켜 NIST LRE 07에서 최대 63%의 오차 감소와 음성 인식에서 20%의 오차 감소를 달성하였다.

ABSTRACT

In this paper, we explore the encoding/pooling layer and loss function in the end-to-end speaker and language recognition system. First, a unified and interpretable end-to-end system for both speaker and language recognition is developed. It accepts variable-length input and produces an utterance level result. In the end-to-end system, the encoding layer plays a role in aggregating the variable-length input sequence into an utterance level representation. Besides the basic temporal average pooling, we introduce a self-attentive pooling layer and a learnable dictionary encoding layer to get the utterance level representation. In terms of loss function for open-set speaker verification, to get more discriminative speaker embedding, center loss and angular softmax loss is introduced in the end-to-end system. Experimental results on Voxceleb and NIST LRE 07 datasets show that the performance of end-to-end learning system could be significantly improved by the proposed encoding layer and loss function.

연구 동기 및 목표

변동 길이의 음성 입력을 처리할 수 있는 통합형 해석 가능한 엔드 투 엔드 시스템을 개발하는 것.
시간 평균 풀링, 자기주의 어텐션 풀링(SAP), 학습 가능한 사전 인코딩(LDE) 등의 다양한 인코딩 레이어가 유저 수준 표현 학습에 미치는 영향을 조사하는 것.
중심 손실과 각도 소프트맥스(A-Softmax)와 같은 분류 손실 함수의 효과를 평가하여 개방 집합 검증에서 음성 임bedding의 분류 성능을 향상시키는 것.
표준 벤치마크(VoxCeleb 및 NIST LRE 07)에서 기존의 i-vector 기반 시스템과의 성능 비교를 수행하는 것.

제안 방법

원시 음성에서 프레임 수준의 특징을 추출하기 위해 프론트엔드 딥 CNN(ResNet-34)을 사용한 후, 유저 수준 표현을 생성하기 위해 학습 가능한 인코딩 레이어를 적용한다.
세 가지 인코딩 레이어를 평가: 시간 평균 풀링(TAP), 자기주의 어텐션 풀링(SAP), 학습 가능한 사전 인코딩(LDE), LDE는 64개의 사전 구성 요소를 사용한다.
엔드 투 엔드 학습에 중심 손실(λ=0.001)과 각도 소프트맥스(m=4)와 같은 분류 손실 함수를 통합하여 임베딩의 분류 성능을 향상시킨다.
학습은 모멘타임 0.9와 가중치 감쇠 1e-4를 사용한 확률적 경사 하강법로 수행되며, 손실 값이 정체되는 지점에서 학습률 감소 전략을 적용한다.
개방 집합 검증을 위해 128차원의 음성 임베딩을 이전 레이어에서 추출하고, 코사인 유사도 또는 PLDA를 사용하여 점수를 매긴다.
변동 길이 입력에 대한 강건성을 확보하기 위해, 미니배치당 300~800프레임으로 랜덤 크롭핑 또는 연장 기법을 활용한 데이터 증강을 실시한다.

실험 결과

연구 질문

RQ1다양한 인코딩 레이어(TAP, SAP, LDE)가 엔드 투 엔드 음성 및 언어 인식 시스템의 성능에 미치는 영향는 어떠한가?
RQ2중심 손실과 각도 소프트맥스 손실의 통합이 개방 집합 검증에서 음성 임베딩의 분류 성능 향상에 기여하는가?
RQ3엔드 투 엔드 시스템의 성능은 VoxCeleb 및 NIST LRE 07 등의 표준 데이터셋에서 기존의 i-vector 기반 시스템과 비교해 어떻게 되는가?
RQ4PLDA를 유사도 메트릭으로 사용할 경우, 특히 분류 손실이 적용된 엔드 투 엔드 시스템에서 일관된 성능 향상이 이루어지는가?

주요 결과

CNN-LDE 시스템은 TAP-Softmax 기반 시스템 대비 NIST LRE 07 3초 작업에서 25%의 상대 오차 감소를 달성하였다.
10초 및 30초 NIST LRE 07 작업에서 CNN-LDE 시스템은 각각 45%와 63%의 상대 오차 감소를 기록하였다.
VoxCeleb 음성 식별 작업에서 LDE 기반 시스템은 TAP 기반 시스템 대비 12%의 상대 오차 감소를 기록하였다.
LDE-A-Softmax 시스템은 음성 인식에서 최고의 성능을 기록하였으며, C_det 값은 0.441, EER은 4.56%로 TAP-Softmax 기반 시스템 대비 20%의 상대 오차 감소를 기록하였다.
PLDA는 기존의 i-vector 시스템에서는 뚜렷한 성능 향상을 제공했지만, 분류 손실을 적용한 엔드 투 엔드 시스템에서는 거의 향상이 없었고, 때로는 성능 저하를 초래하기도 하였다.
모든 평가 작업에서 LDE 레이어는 TAP 및 SAP 레이어를 모두 압도하며, 강건한 유저 수준 표현 학습 능력을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.