[논문 리뷰] Multilingual End-to-End Speech Recognition with A Single Transformer on Low-Resource Languages
본 논문은 sub-words(BPE)를 사용한 단일 다국어 ASR 트랜스포머가 여섯 개의 자원이 낮은 언어를 인식할 수 있음을 보이고, 끝에나 문장 시작 토큰으로 언어 정보를 주입하는 것이 WER을 감소시키며, 알려진 언어 조건에서 B2가 최상의 결과를 낸다.
Sequence-to-sequence attention-based models integrate an acoustic, pronunciation and language model into a single neural network, which make them very suitable for multilingual automatic speech recognition (ASR). In this paper, we are concerned with multilingual speech recognition on low-resource languages by a single Transformer, one of sequence-to-sequence attention-based models. Sub-words are employed as the multilingual modeling unit without using any pronunciation lexicon. First, we show that a single multilingual ASR Transformer performs well on low-resource languages despite of some language confusion. We then look at incorporating language information into the model by inserting the language symbol at the beginning or at the end of the original sub-words sequence under the condition of language information being known during training. Experiments on CALLHOME datasets demonstrate that the multilingual ASR Transformer with the language symbol at the end performs better and can obtain relatively 10.5\% average word error rate (WER) reduction compared to SHL-MLSTM with residual learning. We go on to show that, assuming the language information being known during training and testing, about relatively 12.4\% average WER reduction can be observed compared to SHL-MLSTM with residual learning through giving the language symbol as the sentence start token.
연구 동기 및 목표
- 저자들은 단일 트랜스포머를 사용한 저자원 언어에 대한 다국어 엔드-투-엔드 ASR를 조사한다.
- BPE를 통해 서브워드 단위가 발음 사전의 필요를 제거할 수 있는지 평가한다.
- 디코딩 중 언어 혼동을 줄이기 위해 언어 정보를 주입하는 방법을 검토한다.
제안 방법
- 다중 헤드 어텐션과 위치별 피드포워드 층을 갖춘 단일 ASR 트랜스포머를 사용한다.
- 다국어 모델링 단위로 BPE의 서브워드를 공유한다.
- 언어 토큰으로 심볼 어휘를 확장하고 도입 시점(시작 vs 끝) 및 테스트 시 사용 방식(알려진 언어일 때)을 비교한다.
- 데이터가 제한적일 때 다국어 학습을 고자원 언어 모델에서 시작하고 소프트맥스를 언어별 출력으로 대체한다.
- 서브워드 어휘 크기와 서브워드당 데이터의 균형을 맞추기 위해 서로 다른 BPE 합병 수 α를 실험한다.
- 안정성을 위해 마지막 20개의 모델 체크포인트를 평균화한다.
실험 결과
연구 질문
- RQ1단일 다국어 트랜스포머가 발음 사전 없이 저자원 언어에서 경쟁력 있는 WER을 달성하는가?
- RQ2언어 정보를 문장 시작/끝 토큰으로 삽입하거나 언어를 알고 있을 때 시작 토큰으로 사용하는 것이 각 언어의 WER에 어떤 영향을 미치는가?
- RQ3BPE 합병 수 α가 모국어 단독 설정과 다국어 설정에서 성능에 어떤 영향을 미치는가?
- RQ4학습 중(및 테스트 시) 언어 정보가 다국어 엔드-투-엔드 ASR의 언어 혼동을 줄일 수 있는가?
주요 결과
- 언어 기호를 끝에 두는 단일 다국어 ASR 트랜스포머(Transformer-E)가 SHL-MLSTM-RESIDUAL 대비 상대 평균 WER 감소를 최대 10.5%까지 달성한다.
- 학습 및 테스트 시 언어 정보를 알고 있을 때 문장 시작 토큰으로 언어 기호를 사용하는 경우(Transformer-B2)가 SHL-MLSTM-RESIDUAL 대비 약 12.4%의 상대 평균 WER 감소를 보인다.
- 공유 서브워드를 이용한 다국어 학습은 일반적으로 모국어 모델보다 평균 성능을 향상시키나, 언어 조건화가 없으면 여전히 언어 혼동 문제가 남아 있다.
- 최적의 다국어 구성(B2)은 여러 언어의 WER를 크게 감소시키며, 언어 단서를 주면 모델이 올바른 언어로 디코딩할 수 있는 능력을 보여준다.
- 언어별로 다국어 트랜스포머가 끝 토큰 언어 조건화를 사용할 때보다 시작 토큰을 두거나 언어 정보를 사용하지 않는 변형들보다 일관되게 더 우수한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.