QUICK REVIEW

[논문 리뷰] Advanced Rich Transcription System for Estonian Speech

Tanel Alumäe, Ottokar Tilk|arXiv (Cornell University)|2019. 01. 11.

Speech Recognition and Synthesis참고 문헌 17인용 수 28

한 줄 요약

이 논문은 에스토니아어를 위한 고도로 발전된 오픈소스 음성 인식 시스템을 제시하며, 문장 부호 복원 및 발화자 식별 기능을 통합하여 자동 음성 인식의 정확성을 향상시킨다. 비음성 데이터에서 추출한 노이즈 프로파일을 활용한 다중 조건 훈련을 통해 강인성을 향상시키고, 문자 기반 RNN 임베딩 생성기와 FST 기반의 음소-문자 변환 모델을 통해 OOV(알려지지 않은 단어) 처리 능력을 강화하여, 방송 대화에서 8.1% WER, 정밀도 93%에서 66%의 발화자 복귀율을 달성한다. 이는 약한 감독 훈련을 통해 이루어졌다.

ABSTRACT

This paper describes the current TTÜ speech transcription system for Estonian speech. The system is designed to handle semi-spontaneous speech, such as broadcast conversations, lecture recordings and interviews recorded in diverse acoustic conditions. The system is based on the Kaldi toolkit. Multi-condition training using background noise profiles extracted automatically from untranscribed data is used to improve the robustness of the system. Out-of-vocabulary words are recovered using a phoneme n-gram based decoding subgraph and a FST-based phoneme-to-grapheme model. The system achieves a word error rate of 8.1% on a test set of broadcast conversations. The system also performs punctuation recovery and speaker identification. Speaker identification models are trained using a recently proposed weakly supervised training method.

연구 동기 및 목표

실제 음향 환경에서 반자연스러운 에스토니아어 음성 데이터를 처리할 수 있는 강인하고 종단 간 음성 전사 시스템을 개발한다.
형산어 및 복합어를 특징으로 하는 언어에서 언어 모델링의 OOV 단어 처리를 향상시키기 위해 문자 기반 RNN 임베딩과 FST 기반의 음소-문자 변환을 활용한다.
패ading 인식 모델을 수정하여 입력 전체 시퀀스를 활용하면서도 마지막 10개 단어를 팯딩으로 간주함으로써 정확한 예측을 위한 전방 컨텍스트를 유지함으로써 ASR 출력에 대한 문장 부호 복원을 향상시킨다.
세그먼트 수준의 레이블이 아닌, 녹음 파일 당 발화자 메타데이터만을 활용하여 공적 인물에 대한 발화자 식별 모델을 훈련시켜 고비용의 세그먼트 수준 레이블링을 피한다.
미디어 모니터링 및 공공 웹 서비스에 적합한 확장성 있고 프로덕션 수준의 시스템을 구축한다.

제안 방법

시스템은 Kaldi ASR 툴킷 기반으로 구축되었으며, 음성 인식 성능을 향상시키기 위해 비음성 데이터에서 추출한 배경 노이즈 프로파일을 활용한 다중 조건 훈련을 수행한다.
알려지지 않은 단어(OOV)는 음소 n-그램 디코딩 서브그래프와 FST 기반의 음소-문자 모델을 통해 복구된다.
문자 기반 RNN이 OOV 단어의 동적 단어 임베딩을 생성함으로써 10만 단어의 어휘 제한을 초월한 커버리지 향상을 달성한다.
입력 전체 시퀀스를 활용하면서도 마지막 10개 단어를 패딩으로 간주함으로써 전방 컨텍스트를 유지함으로써 문장 부호 복원 성능을 향상시킨다.
세그먼트 수준의 레이블이 아닌 녹음 파일 당 발화자 메타데이터만을 사용하는 약한 감독 훈련 방법을 통해 발화자 식별 모델을 훈련시킨다.
시스템은 공공 웹 전사 서비스 및 미디어 모니터링 도구의 백엔드로 무료로 오픈소스로 배포된다.

실험 결과

연구 질문

RQ1에스토니아어와 같이 자원이 적은 언어의 ASR 시스템은 어떻게 실생활의 노이즈가 많은 녹음 데이터에 대해 강인하게 만들 수 있는가?
RQ2형산어 및 복합어를 특징으로 하는 언어에서 언어 모델링의 OOV 단어 비율을 효과적으로 낮추기 위한 기법은 무엇인가?
RQ3수동으로 편집된 데이터가 없는 조건에서 ASR 출력에 대한 문장 부호 복원을 신뢰성 있게 수행할 수 있는 방법은 무엇인가?
RQ4공적 인물의 수가 많은 경우, 세그먼트 수준의 레이블 없이도 효과적으로 발화자 식별 모델을 훈련시킬 수 있는가?
RQ5약한 감독 훈련을 통해 방송 뉴스 환경에서 높은 정밀도의 발화자 식별 성능를 달성할 수 있는 정도는 어느 정도인가?

주요 결과

시스템은 라디오 방송 대화 테스트 세트에서 8.1%의 단어 오류율(WER)을 기록하여 반자연스러운 음성에서 뛰어난 성능을 입증했다.
회의 음성에서는 WER이 12.9%에 달했고, 실제 환경에서의 사용자 생성 녹음에서는 22.7%의 WER를 기록했다.
수동으로 전사된 데이터에서 제안된 OOV 처리 방법은 F1 점수를 0.5–1.1% 향상시키고, 슬롯 오류율을 1.3–2.2% 감소시켰다.
ASR 출력에 대한 문장 부호 복원 개선으로 인해 상대적 F1 점수는 0.5–0.6% 향상되었고, 상대적 SER 감소는 0.1–0.2%였다.
약한 감독 훈련을 통한 발화자 식별 시스템은 라디오 뉴스 평가 세트에서 정밀도 93%에서 시간 가중 평균 복귀율 66%를 달성했다.
오라클 다이아라이제이션을 사용할 경우 75%의 복귀율을 기록했고, 자동 다이아라이제이션을 사용할 경우 66%의 복귀율을 기록하여, 미리 보지 않은 콘텐츠에 대해 강력한 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.