[논문 리뷰] Advanced Rich Transcription System for Estonian Speech
이 논문은 에스토니아어를 위한 고도로 발전된 오픈소스 음성 인식 시스템을 제시하며, 문장 부호 복원 및 발화자 식별 기능을 통합하여 자동 음성 인식의 정확성을 향상시킨다. 비음성 데이터에서 추출한 노이즈 프로파일을 활용한 다중 조건 훈련을 통해 강인성을 향상시키고, 문자 기반 RNN 임베딩 생성기와 FST 기반의 음소-문자 변환 모델을 통해 OOV(알려지지 않은 단어) 처리 능력을 강화하여, 방송 대화에서 8.1% WER, 정밀도 93%에서 66%의 발화자 복귀율을 달성한다. 이는 약한 감독 훈련을 통해 이루어졌다.
This paper describes the current TTÜ speech transcription system for Estonian speech. The system is designed to handle semi-spontaneous speech, such as broadcast conversations, lecture recordings and interviews recorded in diverse acoustic conditions. The system is based on the Kaldi toolkit. Multi-condition training using background noise profiles extracted automatically from untranscribed data is used to improve the robustness of the system. Out-of-vocabulary words are recovered using a phoneme n-gram based decoding subgraph and a FST-based phoneme-to-grapheme model. The system achieves a word error rate of 8.1% on a test set of broadcast conversations. The system also performs punctuation recovery and speaker identification. Speaker identification models are trained using a recently proposed weakly supervised training method.
연구 동기 및 목표
- 실제 음향 환경에서 반자연스러운 에스토니아어 음성 데이터를 처리할 수 있는 강인하고 종단 간 음성 전사 시스템을 개발한다.
- 형산어 및 복합어를 특징으로 하는 언어에서 언어 모델링의 OOV 단어 처리를 향상시키기 위해 문자 기반 RNN 임베딩과 FST 기반의 음소-문자 변환을 활용한다.
- 패ading 인식 모델을 수정하여 입력 전체 시퀀스를 활용하면서도 마지막 10개 단어를 팯딩으로 간주함으로써 정확한 예측을 위한 전방 컨텍스트를 유지함으로써 ASR 출력에 대한 문장 부호 복원을 향상시킨다.
- 세그먼트 수준의 레이블이 아닌, 녹음 파일 당 발화자 메타데이터만을 활용하여 공적 인물에 대한 발화자 식별 모델을 훈련시켜 고비용의 세그먼트 수준 레이블링을 피한다.
- 미디어 모니터링 및 공공 웹 서비스에 적합한 확장성 있고 프로덕션 수준의 시스템을 구축한다.
제안 방법
- 시스템은 Kaldi ASR 툴킷 기반으로 구축되었으며, 음성 인식 성능을 향상시키기 위해 비음성 데이터에서 추출한 배경 노이즈 프로파일을 활용한 다중 조건 훈련을 수행한다.
- 알려지지 않은 단어(OOV)는 음소 n-그램 디코딩 서브그래프와 FST 기반의 음소-문자 모델을 통해 복구된다.
- 문자 기반 RNN이 OOV 단어의 동적 단어 임베딩을 생성함으로써 10만 단어의 어휘 제한을 초월한 커버리지 향상을 달성한다.
- 입력 전체 시퀀스를 활용하면서도 마지막 10개 단어를 패딩으로 간주함으로써 전방 컨텍스트를 유지함으로써 문장 부호 복원 성능을 향상시킨다.
- 세그먼트 수준의 레이블이 아닌 녹음 파일 당 발화자 메타데이터만을 사용하는 약한 감독 훈련 방법을 통해 발화자 식별 모델을 훈련시킨다.
- 시스템은 공공 웹 전사 서비스 및 미디어 모니터링 도구의 백엔드로 무료로 오픈소스로 배포된다.
실험 결과
연구 질문
- RQ1에스토니아어와 같이 자원이 적은 언어의 ASR 시스템은 어떻게 실생활의 노이즈가 많은 녹음 데이터에 대해 강인하게 만들 수 있는가?
- RQ2형산어 및 복합어를 특징으로 하는 언어에서 언어 모델링의 OOV 단어 비율을 효과적으로 낮추기 위한 기법은 무엇인가?
- RQ3수동으로 편집된 데이터가 없는 조건에서 ASR 출력에 대한 문장 부호 복원을 신뢰성 있게 수행할 수 있는 방법은 무엇인가?
- RQ4공적 인물의 수가 많은 경우, 세그먼트 수준의 레이블 없이도 효과적으로 발화자 식별 모델을 훈련시킬 수 있는가?
- RQ5약한 감독 훈련을 통해 방송 뉴스 환경에서 높은 정밀도의 발화자 식별 성능를 달성할 수 있는 정도는 어느 정도인가?
주요 결과
- 시스템은 라디오 방송 대화 테스트 세트에서 8.1%의 단어 오류율(WER)을 기록하여 반자연스러운 음성에서 뛰어난 성능을 입증했다.
- 회의 음성에서는 WER이 12.9%에 달했고, 실제 환경에서의 사용자 생성 녹음에서는 22.7%의 WER를 기록했다.
- 수동으로 전사된 데이터에서 제안된 OOV 처리 방법은 F1 점수를 0.5–1.1% 향상시키고, 슬롯 오류율을 1.3–2.2% 감소시켰다.
- ASR 출력에 대한 문장 부호 복원 개선으로 인해 상대적 F1 점수는 0.5–0.6% 향상되었고, 상대적 SER 감소는 0.1–0.2%였다.
- 약한 감독 훈련을 통한 발화자 식별 시스템은 라디오 뉴스 평가 세트에서 정밀도 93%에서 시간 가중 평균 복귀율 66%를 달성했다.
- 오라클 다이아라이제이션을 사용할 경우 75%의 복귀율을 기록했고, 자동 다이아라이제이션을 사용할 경우 66%의 복귀율을 기록하여, 미리 보지 않은 콘텐츠에 대해 강력한 일반화 능력을 입증했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.