QUICK REVIEW

[논문 리뷰] Multilingual Training and Cross-lingual Adaptation on CTC-based Acoustic Model

Sibo Tong, Philip N. Garner|arXiv (Cornell University)|2017. 11. 27.

Speech Recognition and Synthesis참고 문헌 26인용 수 29

한 줄 요약

이 논문은 저자원 음성 인식을 향상시키기 위해 통합 IPA 음소 집합을 사용하는 다국어 CTC 기반 음성 모델을 제안한다. 언어 적응형 훈련을 위해 LHUC를 적용하고, 다국어 적응 기간 동안 드롭아웃을 사용함으로써, 단 21시간의 데이터로도 DNN/HMM 시스템 수준의 경쟁력 있는 성능을 달성한다. 이는 강력한 일반화 능력과 새로운 음소에 대한 확장성을 입증한다.

ABSTRACT

Multilingual models for Automatic Speech Recognition (ASR) are attractive as they have been shown to benefit from more training data, and better lend themselves to adaptation to under-resourced languages. However, initialisation from monolingual context-dependent models leads to an explosion of context-dependent states. Connectionist Temporal Classification (CTC) is a potential solution to this as it performs well with monophone labels. We investigate multilingual CTC in the context of adaptation and regularisation techniques that have been shown to be beneficial in more conventional contexts. The multilingual model is trained to model a universal International Phonetic Alphabet (IPA)-based phone set using the CTC loss function. Learning Hidden Unit Contribution (LHUC) is investigated to perform language adaptive training. In addition, dropout during cross-lingual adaptation is also studied and tested in order to mitigate the overfitting problem. Experiments show that the performance of the universal phoneme-based CTC system can be improved by applying LHUC and it is extensible to new phonemes during cross-lingual adaptation. Updating all the parameters shows consistent improvement on limited data. Applying dropout during adaptation can further improve the system and achieve competitive performance with Deep Neural Network / Hidden Markov Model (DNN/HMM) systems on limited data.

연구 동기 및 목표

다국어 데이터를 활용하여 통합 음소 기반 CTC 모델을 통해 저자원 음성 인식을 향상시키기 위해.
다국어 적응 과정에서 낮은 데이터 양으로 인한 과적합 문제를 정규화 기법을 통해 해결하기 위해.
CTC 기반 모델이 완전한 재학습 없이도 효과적으로 언어 간 지식을 전이할 수 있는지 조사하기 위해.
LHUC와 드롭아웃이 다국어 CTC 모델 적응에 있어 성능 향상에 기여하는지 평가하기 위해.

제안 방법

다국어(예: 영어, 프랑스어, 독일어, 포르투갈어)의 공동 데이터를 사용하여 통합 IPA 기반 음소 집합에 기반한 다국어 CTC 모델을 훈련시키기.
학습된 은닉 유닛 기여도를 언어별로 스케일링하여 목표 언어에 적응시키기 위해 LHUC(학습 은닉 유닛 기여도)를 적용하기.
제한된 목표 언어 데이터에서 과적합을 줄이기 위해 다국어 적응 기간 동안 드롭아웃을 사용하기.
미리 훈련된 적이 없는 음소를 위해 출력층을 확장하고, 무작위로 초기화된 가중치를 사용하여 전체 네트워크를 미세조정하기.
적응 전략 비교: 출력층만 업데이트, 모든 파라미터 업데이트, 새로운 음소 헤드를 포함한 네트워크 확장.
단일 언어, 다국어, 적응된 CTC 시스템을 사용하여 1~21시간의 제한된 데이터에서 WER을 통해 성능 평가하기.

실험 결과

연구 질문

RQ1통합 IPA 음소 집합에 기반한 다국어 CTC 모델이 저자원 언어로의 다국어 적응을 위한 사전 지식으로 효과적으로 기능할 수 있는가?
RQ2LHUC를 통해 다국어 CTC 환경에서 은닉 유닛의 기여도를 언어별로 스케일링함으로써 적응 성능이 향상되는가?
RQ3적응 기간 동안 드롭아웃을 적용하면 제한된 목표 언어 데이터에서 과적합을 완화하고 일반화 능력을 향상시킬 수 있는가?
RQ4모든 네트워크 파라미터를 업데이트하는 것과 출력층만 미세조정하는 것 사이의 적응 성능는 어떻게 비교되는가?
RQ5다국어 CTC 모델이 사전 훈련 중에 보이지 않은 새로운 음소에 얼마나 잘 확장될 수 있는가?

주요 결과

다국어 CTC 모델에서의 다국어 적응은 15시간 미만의 데이터에서 단일 언어 CTC 훈련보다 유의미하게 뛰어난 성능을 보이며, 10시간 데이터에서 WER이 50% 이상에서 12% 이하로 감소한다.
30개의 음소를 다루는 다국어 모델(ML-4)은 스페인어 데이터 10시간에서 11.2%의 WER을 기록했고, 23개의 음소만 다루는 모델(ML-3)은 11.3%의 WER을 기록하여 음소 커버리지가 적응 성능을 향상시킨다.
포르투갈어 데이터 21시간에서 적응 기간 동안 드롭아웃을 적용하면 WER이 20.5%에서 19.0%로 감소하여, CTC 시스템이 단일 언어 DNN/HMM 기준선(19.5%)에 근접하게 된다.
모든 파라미터를 업데이트하는 것이 출력층만 미세조정하는 것보다 일관되게 성능이 뛰어나, DNN/HMM 시스템과 달리 공유 은닉층이 완전히 이식 가능하지 않음을 시사한다.
다국어 CTC 모델은 새로운 음소에 대해 확장 가능하다: 보이지 않는 음소를 위한 무작위 가중치 초기화 후 전체 네트워크를 미세조정하면 추가적인 성능 향상이 이루어진다.
드롭아웃을 적응 기간 동안 적용함으로써, 단 21시간의 데이터로도 DNN/HMM 시스템 수준의 경쟁성 있는 성능을 달성한다. 이는 적절한 적응 기법과 결합된 CTC가 제한된 데이터 조건에서도 효과적일 수 있음을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.