Skip to main content
QUICK REVIEW

[논문 리뷰] Exploring the Encoding Layer and Loss Function in End-to-End Speaker and Language Recognition System

Weicheng Cai, Jinkun Chen|arXiv (Cornell University)|2018. 04. 14.
Speech Recognition and Synthesis참고 문헌 16인용 수 37
한 줄 요약

이 논문은 고도로 발전된 인코딩 레이어와 분류 손실 함수를 통해 성능을 향상시키는 통합형 엔드 투 엔드 시스템을 제안한다. 유저 수준의 표현을 생성하기 위해 학습 가능한 사전 인코딩(LDE) 레이어와 자기주의 어텐션 풀링(SAP)을 도입하였으며, 중심 손실과 각도 소프트맥스 손실은 분류 성능을 향상시켜 NIST LRE 07에서 최대 63%의 오차 감소와 음성 인식에서 20%의 오차 감소를 달성하였다.

ABSTRACT

In this paper, we explore the encoding/pooling layer and loss function in the end-to-end speaker and language recognition system. First, a unified and interpretable end-to-end system for both speaker and language recognition is developed. It accepts variable-length input and produces an utterance level result. In the end-to-end system, the encoding layer plays a role in aggregating the variable-length input sequence into an utterance level representation. Besides the basic temporal average pooling, we introduce a self-attentive pooling layer and a learnable dictionary encoding layer to get the utterance level representation. In terms of loss function for open-set speaker verification, to get more discriminative speaker embedding, center loss and angular softmax loss is introduced in the end-to-end system. Experimental results on Voxceleb and NIST LRE 07 datasets show that the performance of end-to-end learning system could be significantly improved by the proposed encoding layer and loss function.

연구 동기 및 목표

  • 변동 길이의 음성 입력을 처리할 수 있는 통합형 해석 가능한 엔드 투 엔드 시스템을 개발하는 것.
  • 시간 평균 풀링, 자기주의 어텐션 풀링(SAP), 학습 가능한 사전 인코딩(LDE) 등의 다양한 인코딩 레이어가 유저 수준 표현 학습에 미치는 영향을 조사하는 것.
  • 중심 손실과 각도 소프트맥스(A-Softmax)와 같은 분류 손실 함수의 효과를 평가하여 개방 집합 검증에서 음성 임bedding의 분류 성능을 향상시키는 것.
  • 표준 벤치마크(VoxCeleb 및 NIST LRE 07)에서 기존의 i-vector 기반 시스템과의 성능 비교를 수행하는 것.

제안 방법

  • 원시 음성에서 프레임 수준의 특징을 추출하기 위해 프론트엔드 딥 CNN(ResNet-34)을 사용한 후, 유저 수준 표현을 생성하기 위해 학습 가능한 인코딩 레이어를 적용한다.
  • 세 가지 인코딩 레이어를 평가: 시간 평균 풀링(TAP), 자기주의 어텐션 풀링(SAP), 학습 가능한 사전 인코딩(LDE), LDE는 64개의 사전 구성 요소를 사용한다.
  • 엔드 투 엔드 학습에 중심 손실(λ=0.001)과 각도 소프트맥스(m=4)와 같은 분류 손실 함수를 통합하여 임베딩의 분류 성능을 향상시킨다.
  • 학습은 모멘타임 0.9와 가중치 감쇠 1e-4를 사용한 확률적 경사 하강법로 수행되며, 손실 값이 정체되는 지점에서 학습률 감소 전략을 적용한다.
  • 개방 집합 검증을 위해 128차원의 음성 임베딩을 이전 레이어에서 추출하고, 코사인 유사도 또는 PLDA를 사용하여 점수를 매긴다.
  • 변동 길이 입력에 대한 강건성을 확보하기 위해, 미니배치당 300~800프레임으로 랜덤 크롭핑 또는 연장 기법을 활용한 데이터 증강을 실시한다.

실험 결과

연구 질문

  • RQ1다양한 인코딩 레이어(TAP, SAP, LDE)가 엔드 투 엔드 음성 및 언어 인식 시스템의 성능에 미치는 영향는 어떠한가?
  • RQ2중심 손실과 각도 소프트맥스 손실의 통합이 개방 집합 검증에서 음성 임베딩의 분류 성능 향상에 기여하는가?
  • RQ3엔드 투 엔드 시스템의 성능은 VoxCeleb 및 NIST LRE 07 등의 표준 데이터셋에서 기존의 i-vector 기반 시스템과 비교해 어떻게 되는가?
  • RQ4PLDA를 유사도 메트릭으로 사용할 경우, 특히 분류 손실이 적용된 엔드 투 엔드 시스템에서 일관된 성능 향상이 이루어지는가?

주요 결과

  • CNN-LDE 시스템은 TAP-Softmax 기반 시스템 대비 NIST LRE 07 3초 작업에서 25%의 상대 오차 감소를 달성하였다.
  • 10초 및 30초 NIST LRE 07 작업에서 CNN-LDE 시스템은 각각 45%와 63%의 상대 오차 감소를 기록하였다.
  • VoxCeleb 음성 식별 작업에서 LDE 기반 시스템은 TAP 기반 시스템 대비 12%의 상대 오차 감소를 기록하였다.
  • LDE-A-Softmax 시스템은 음성 인식에서 최고의 성능을 기록하였으며, C_det 값은 0.441, EER은 4.56%로 TAP-Softmax 기반 시스템 대비 20%의 상대 오차 감소를 기록하였다.
  • PLDA는 기존의 i-vector 시스템에서는 뚜렷한 성능 향상을 제공했지만, 분류 손실을 적용한 엔드 투 엔드 시스템에서는 거의 향상이 없었고, 때로는 성능 저하를 초래하기도 하였다.
  • 모든 평가 작업에서 LDE 레이어는 TAP 및 SAP 레이어를 모두 압도하며, 강건한 유저 수준 표현 학습 능력을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.