QUICK REVIEW

[논문 리뷰] Unsupervised Speech Recognition via Segmental Empirical Output Distribution Matching

Chih‐Kuan Yeh, Jianshu Chen|arXiv (Cornell University)|2018. 12. 22.

Speech Recognition and Synthesis인용 수 26

한 줄 요약

이 논문은 새로운 Segmental Empirical Output Distribution Matching (SE-ODM) 손실을 사용하여 음소 분류기를 훈련하고, 근사 MAP 방법을 통해 음소 경계를 개선하는 방식으로 번갈아가며 작동하는 완전히 비지도 음성 인식 시스템을 제안한다. 이 방법은 레이블이 전혀 없는 조건에서 TIMIT에서 41.6%의 음소 오류율(PER)을 달성하였으며, 오라클 경계가 제공될 경우 32.5% PER에 도달하여 동일한 아키텍처로 학습된 지도 학습 성능에 근접함을 보이며, 비지도 ASR의 강력한 잠재력을 입증한다.

ABSTRACT

We consider the problem of training speech recognition systems without using any labeled data, under the assumption that the learner can only access to the input utterances and a phoneme language model estimated from a non-overlapping corpus. We propose a fully unsupervised learning algorithm that alternates between solving two sub-problems: (i) learn a phoneme classifier for a given set of phoneme segmentation boundaries, and (ii) refining the phoneme boundaries based on a given classifier. To solve the first sub-problem, we introduce a novel unsupervised cost function named Segmental Empirical Output Distribution Matching, which generalizes the work in (Liu et al., 2017) to segmental structures. For the second sub-problem, we develop an approximate MAP approach to refining the boundaries obtained from Wang et al. (2017). Experimental results on TIMIT dataset demonstrate the success of this fully unsupervised phoneme recognition system, which achieves a phone error rate (PER) of 41.6%. Although it is still far away from the state-of-the-art supervised systems, we show that with oracle boundaries and matching language model, the PER could be improved to 32.5%.This performance approaches the supervised system of the same model architecture, demonstrating the great potential of the proposed method.

연구 동기 및 목표

레이블이 없는 데이터나 강제 정렬이 필요 없는 완전히 비지도 음성 인식 시스템을 개발하는 것.
음소가 알 수 없는 경계를 가진 가변 길이의 프레임 시퀀스로 이루어진 음성의 세그멘탈 구조 문제를 다루는 것.
분류기와 분할 경계 추정을 동시에 최적화하여 비지도 음소 인식 성능을 향상시키는 것.
정확한 경계가 제공될 경우 비지도 모델이 지도 학습 성능에 도달할 수 있음을 입증하는 것.
순차적 모델링에서 세그멘탈 구조에 대해 기존의 Empirical Output Distribution Matching (ODM) 프레임워크를 일반화하는 것.

제안 방법

각 세그먼트 내 예측 출력이 동일하도록 강제하고 세그먼트 수준의 출력 분포를 사전에 훈련된 음소 언어 모델과 일치시키는 새로운 비지도 손실인 Segmental Empirical-ODM (SE-ODM)을 도입한다.
클러스터링이나 임베딩 기반 접근법을 피하기 위해 원시 음성 특징을 직접 음소 시퀀스로 매핑하는 신경망을 사용한다.
Wang 등(2017)의 GRU 기반 오토인코더를 경계 초기화로 사용하여 현재 분류기 기반으로 근사 MAP 추론 방법을 적용해 음소 경계를 개선한다.
SE-ODM 훈련과 경계 개선을 번갈아 수행함으로써 분류기와 경계 추정 둘 다를 반복적으로 향상시킬 수 있도록 한다.
비지도 환경에서 성능을 향상시키기 위해 반지도 HMM 학습 기법을 응용한다.
번역된 음성 데이터 없이 언어 모델링이 가능한, 비중첩 텍스트 코퍼스에서 사전에 훈련된 음소 언어 모델을 활용한다.

실험 결과

연구 질문

RQ1레이블이 없는 프레임이나 음성 전사가 전혀 없는 조건에서 완전히 비지도 음성 인식 시스템을 훈련할 수 있는가?
RQ2경계 레이블이 없을 경우 음소가 가변 길이의 프레임 시퀀스로 이루어진 세그멘탈 구조를 효과적으로 모델링할 수 있는가?
RQ3오직 음성 특징과 언어 모델이 존재할 때, SE-ODM와 같은 새로운 비지도 손실 함수가 분류기 성능을 향상시킬 수 있는가?
RQ4현재 분류기만을 사용해 비지도 방식으로 경계 추정을 얼마나 향상시킬 수 있는가?
RQ5정확한 음소 경계가 제공될 경우 비지도 시스템의 성능이 지도 학습 시스템에 얼마나 가까워지는가?

주요 결과

완전히 비지도 시스템은 TIMIT 음소 인식 벤치마크에서 41.6%의 음소 오류율(PER)을 달성하였으며, 오라클 경계가 없는 조건에서 완전히 비지도 ASR 시스템의 첫 번째 실증적 성공 사례로 평가된다.
오라클 음소 분할 경계가 제공될 경우 시스템은 32.5% PER를 기록하였으며, 동일한 모델 아키텍처를 사용한 지도 학습 시스템의 성능에 매우 가까워진다.
SE-ODM 손실은 예측 출력의 분포를 언어 모델과 일치시키고 세그먼트 내 일관성을 강제함으로써 레이블 없이도 효과적인 훈련이 가능하도록 한다.
근사 MAP를 통한 경계의 반복적 개선은 분할 정확도를 크게 향상시키고 전체 인식 성능을 향상시킨다.
핵심 기법들이 레이블이 없는 다른 순차적 모델링 작업으로도 확장 가능하므로, 높은 일반화 잠재력을 보여준다.
결과적으로 비지도 ASR이 정확한 경계 추정과 결합될 경우 높은 성능을 달성할 수 있음을 입증하였으며, 향후 경계 학습 기술의 향상으로 지도 학습 시스템과의 격차를 줄일 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.