[논문 리뷰] Towards End-to-End Code-Switching Speech Recognition
이 논문은 SEAME에서 하이브리드 CTC-Attention 엔드투엔드 만다린-영어 코드스위칭 ASR 시스템을 제시하고, 모델링 유닛, 언어 식별, 디코딩 전략을 연구하며, 테스트 세트에서 MER를 34.24%까지 낮춘다.
Code-switching speech recognition has attracted an increasing interest recently, but the need for expert linguistic knowledge has always been a big issue. End-to-end automatic speech recognition (ASR) simplifies the building of ASR systems considerably by predicting graphemes or characters directly from acoustic input. In the mean time, the need of expert linguistic knowledge is also eliminated, which makes it an attractive choice for code-switching ASR. This paper presents a hybrid CTC-Attention based end-to-end Mandarin-English code-switching (CS) speech recognition system and studies the effect of hybrid CTC-Attention based models, different modeling units, the inclusion of language identification and different decoding strategies on the task of code-switching ASR. On the SEAME corpus, our system achieves a mixed error rate (MER) of 34.24%.
연구 동기 및 목표
- 엔지니어의 전문 지식 및 어휘에 대한 의존도를 줄이기 위해 코드스위칭에 대한 엔드투엔드 접근법의 필요성을 제시한다.
- 만다린-영어 코드스위칭 ASR에 대한 하이브리드 CTC-Attention 아키텍처를 평가한다.
- 모델링 유닛(Character 대 Subword)의 영향과 언어 식별의 효과를 조사한다.
- 혼합어 출력을 개선하기 위한 디코딩 전략과 그 효과를 평가한다.
- SEAME 코퍼스를 분석하여 코드스위칭 ASR에 적합한 설정을 탐구한다.
제안 방법
- 엔코더를 CTC 손실과 어텐션 손실 모두로 학습시키는 하이브리드 CTC-Attention 엔드투엔드 프레임워크를 채택한다.
- 두 가지 모델링 유닛 구성을 탐색한다: Character-Character와 Character-Subword(BPE를 영어 서브워드에 사용).
- 인코더에 LID-Label 및 LID-MTL 다중 작업 학습을 통한 공동 언어 식별을 통합한다.
- 단어 정보 기반의 두 가지 전략(Decode1, Decode2)을 사용한 공동 CTC-Attention 빔 검색 디코딩을 적용하여 단어 형태의 타당성을 높인다.
- 디코딩 중 하이브리드 모델과 함께 RNN 언어 모델을 포함한다.
- SEAME 만다린-영어 코드스위칭 코퍼스에서 학습 및 평가를 수행한다.
실험 결과
연구 질문
- RQ1하이브리드 CTC-Attention 엔드투엔드 모델이 핸드크래프트 어휘 없이도 전통적인 코드스위칭 ASR 성능에 근접할 수 있는가?
- RQ2어떤 음향 모델링 유닛(Character 대 Subword)이 만다린-영어 코드스위칭에 가장 적합한가?
- RQ3공동 언어 식별이 코드스위칭 ASR 성능을 향상시키는가, 그렇다면 그것을 어떻게 통합해야 하는가?
- RQ4단어 타당성을 강제하는 디코딩 전략이 혼합 어휘 인식 결과를 개선하는가?
주요 결과
| Model | Output Units | Dev MER (%) | Test MER (%) |
|---|---|---|---|
| Att + CTC | 문자 | 37.59 | 39.31 |
| Att + CTC | 혼합-200 | 35.44 | 37.83 |
| Att + CTC | 혼합-500 | 36.33 | 38.05 |
| LID-MTL | Decode2 | 32.31 | 34.24 |
- 하이브리드 CTC-Attention 모델이 SEAME에서 MER 측면의 다수의 전통적 코드스위칭 시스템보다 우수한 성능을 보인다.
- 만다린-영어 코드스위칭에 대해 Character-Subword 유닛이 Character-Character 유닛보다 더 우수하다.
- LID-MTL은 LID 가중치가 보통 수준일 때 MER을 개선하며, 0.1에서 주목할 만한 이점을 보인다.
- Decode2 디코딩 전략은 word-informed 제약을 적용하여 Decode1보다 MER을 더 낮추며, 특히 LID-MTL과 함께 더 우수하다.
- 단어 수준의 사전 및 디코딩 제약을 포함하면 빔 검색을 유효한 단어로 안내하여 최종 MER를 줄이는 데 도움이 된다.
- SEAME 테스트 세트에서 보고된 최고 MER: 34.24% (Decode2와 Mix된 200 서브워드의 LID-MTL 사용).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.