Skip to main content
QUICK REVIEW

[논문 리뷰] Semi-Supervised Speech Recognition via Local Prior Matching

Wei-Ning Hsu, Ann Lee|arXiv (Cornell University)|2020. 02. 24.
Speech Recognition and Synthesis참고 문헌 45인용 수 28
한 줄 요약

이 논문은 로컬 사전 매칭(Local Prior Matching, LPM)을 제안하며, 레이블이 없는 음성과 텍스트를 사용하여 강력한 언어 모델의 지식을 분류기 기반 음성 인식(ASR) 모델에 흡수하는 준지도 학습 방법이다. LPM은 레이블이 없는 음성에서 생성된 가설들에 대해 ASR 모델의 출력 분포를 언어 모델의 목표 분포와 매칭함으로써, 레이블이 100시간뿐인 경우에도 클리어 및 노이지브 리브리스피치 테스트 세트에서 각각 54%와 73%의 단어 오류율(WER) 복구를 달성하며, 이는 이전의 지식 흡수 및 가짜 레이블링 방법들을 능가한다.

ABSTRACT

For sequence transduction tasks like speech recognition, a strong structured prior model encodes rich information about the target space, implicitly ruling out invalid sequences by assigning them low probability. In this work, we propose local prior matching (LPM), a semi-supervised objective that distills knowledge from a strong prior (e.g. a language model) to provide learning signal to a discriminative model trained on unlabeled speech. We demonstrate that LPM is theoretically well-motivated, simple to implement, and superior to existing knowledge distillation techniques under comparable settings. Starting from a baseline trained on 100 hours of labeled speech, with an additional 360 hours of unlabeled data, LPM recovers 54% and 73% of the word error rate on clean and noisy test sets relative to a fully supervised model on the same data.

연구 동기 및 목표

  • 자동 음성 인식(ASR)에서 전사된 음성 데이터의 높은 비용과 부족함을 해결하기 위해, 쌍방향으로 연결되지 않은 음성과 텍스트의 방대한 양을 활용하고자 한다.
  • 추가 모듈의 동시 학습이 필요 없이 언어 모델로부터 언어적 사전 지식을 효과적으로 ASR 모델에 흡수하는 준지도 학습 방법을 개발하고자 한다.
  • 이론적으로 탄탄한 단순한 구현 방법을 통해 레이블이 없는 데이터를 활용하여 저자원 환경에서의 ASR 성능을 향상시키고자 한다.
  • 후행 분포(예: 가짜 레이블)가 아닌 사전 분포(언어 모델)에서 흡수하는 것이 더 나은 일반화와 낮은 단어 오류율을 이끌어내는지 입증하고자 한다.

제안 방법

  • LPM은 레이블이 없는 음성에서 다수의 가설을 생성하는 제안 모델을 사용하며, 이 가설들은 사전에 훈련된 언어 모델에 의해 점수 매겨져 지식 흡수를 위한 목표 분포를 생성한다.
  • ASR 모델은 언어 모델이 제안한 가설들에 대해 출력 분포를 매칭하도록 훈련되며, 이는 교차 엔트로피 손실을 사용한다.
  • 이 방법은 생성 모델링에 이론적으로 기반하여, 베이즈 정리에 따라 $ p_{\mathbf{y}|\mathbf{x}} $ 를 $ p_{\mathbf{y}} $ 와 $ p_{\mathbf{x}|\mathbf{y}} $ 를 사용해 근사하며, 가환수의 근사가 가설들에 대해 수행된다.
  • 제안 모델은 훈련 중에 업데이트되어 시간이 지남에 따라 가설의 품질이 향상되고, 이는 ASR 모델의 반복적 개선을 가능하게 한다.
  • LPM은 적대적 훈련이나 사이클 일致성 제약 조건을 피하고, 강력한 사전 지식(언어 모델)에서 ASR 모델로의 근본적인 흡수에 의존한다.
  • 가설 재사용과 제안 모델의 반복적 업데이트를 통해, 최대 60,000시간의 방대한 레이블이 없는 데이터에 대해도 스케일이 가능하다.

실험 결과

연구 질문

  • RQ1소량의 레이블이 있는 데이터에서 언어 모델의 사전 지식을 흡수함으로써 ASR 성능 향상이 가능한가?
  • RQ2레이블이 없는 음성에서 생성된 다수의 가설에 대해 ASR 모델의 출력을 언어 모델의 분포와 매칭하는 것이, 가짜 레이블링 또는 후행 분포 흡수보다 더 나은 일반화 성능을 낳는가?
  • RQ3제안 모델이 생성하는 가설의 품질은 훈련 과정에서 어떻게 변화하며, 이는 최종 ASR 성능에 어떤 영향을 미치는가?
  • RQ4LPM은 매우 방대한 양의 레이블이 없는 데이터에 효과적으로 스케일링 가능한가? 충분한 레이블이 없는 데이터가 제공될 경우, 완전히 지도 학습 기반의 베이스라인을 초월하는가?
  • RQ5생성된 가설의 언어적 타당성과 모델 성능 간의 상관관계는 어떻게 되며, 이를 언어 모델의 퍼플렉서티를 통해 정량화할 수 있는가?

주요 결과

  • 레이블이 100시간뿐인 데이터와 360시간의 레이블이 없는 데이터를 사용할 경우, LPM은 클리어 및 노이지브 리브리스피치 테스트 세트에서 각각 54%와 73%의 단어 오류율(WER) 복구를 달성하며, 이는 460시간의 레이블 데이터로 훈련된 완전 지도 학습 모델에 대비한 성능이다.
  • 레이블이 100시간, 레이블이 없는 데이터가 860시간일 경우, LPM은 460시간의 레이블 데이터로 훈련된 완전 지도 학습 모델의 성능을 초월하며, dev-clean 및 dev-other 세트에서 각각 59.53%와 108.33%의 WER 복구를 달성한다.
  • 강력한 가짜 레이블링 베이스라인(Kahn 등, 2019a)을 능가하며, 860시간의 레이블이 없는 데이터를 사용한 후 LPM의 WER은 13.00%로, 가짜 레이블링의 21.51%보다 낮다.
  • LPM 모델이 생성한 가설의 언어 모델 퍼플렉서티는 베이스라인 및 가짜 레이블링 방법보다 유의미하게 낮으며, dev-clean 및 dev-other 세트에서 각각 59.84와 125.42의 퍼플렉서티를 기록하여 언어적 타당성 향상을 시사한다.
  • LPM 모델의 제안 모델은 시간이 지남에 따라 향상되어, train-other-500에서 레이블이 없는 데이터의 WER이 29.03%에서 13.00%로 감소함을 보이며 반복적 개선의 이점을 입증한다.
  • 60,000시간의 레이블이 없는 데이터로 확장했을 경우, LPM은 각각 83.03%와 115.90%의 WER 복구를 달성하며, 더 많은 데이터에 대한 성능 향상이 지속됨을 보여주며 강력한 확장성과 성능 향상을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.