QUICK REVIEW

[논문 리뷰] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale

Jiayu Du, Xingyu Na|arXiv (Cornell University)|2018. 08. 31.

Speech Recognition and Synthesis참고 문헌 8인용 수 201

한 줄 요약

AISHELL-2는 아이폰으로 녹음된 Mandarin 음성 1000시간과 Kaldi 기반의 엔드투엔드 산업용 규모 ASR 레시피를 제공하며, 여기에는 언어 처리, 특징 파이프라인, LFMMI TDNN 모델이 포함되고 다중 채널 평가 데이터와 함께 제공된다.

ABSTRACT

AISHELL-1 is by far the largest open-source speech corpus available for Mandarin speech recognition research. It was released with a baseline system containing solid training and testing pipelines for Mandarin ASR. In AISHELL-2, 1000 hours of clean read-speech data from iOS is published, which is free for academic usage. On top of AISHELL-2 corpus, an improved recipe is developed and released, containing key components for industrial applications, such as Chinese word segmentation, flexible vocabulary expension and phone set transformation etc. Pipelines support various state-of-the-art techniques, such as time-delayed neural networks and Lattic-Free MMI objective funciton. In addition, we also release dev and test data from other channels(Android and Mic). For research community, we hope that AISHELL-2 corpus can be a solid resource for topics like transfer learning and robust ASR. For industry, we hope AISHELL-2 recipe can be a helpful reference for building meaningful industrial systems and products.

연구 동기 및 목표

학술 연구와 산업 현장에 준비된 베이스라인을 위한 대규모 개방 Mandarin ASR 코퍼스를 제공한다.
어휘 목록, 구분(세그먼트), 및 언어 모델링을 포함한 Kaldi 기반의 엔드투엔드 ASR 레시피를 제공한다.
다중 음향 채널(iOS, Android, Mic)에서의 성능을 시연하고 확장 가능한 학습 파이프라인을 구축한다.
산업 맥락에서 Mandarin ASR에 대한 전달 학습(전이 학습) 및 견고성 연구를 촉진한다.]
method:["다중 채널 dev/test 데이터를 갖춘 AISHELL-2 1000시간 iOS-녹음 Mandarin 읽기 말뭉치를 공개한다.","DaCiDian 사전과 Jieba 분절 도구를 사용한 Mandarin 단어 분절 파이프라인의 개발.","GMM-HMM 초기 학습 다음으로 LFMMI 목표와 i-vector 조건화를 갖춘 TDNN 음향 모델링.","5.7백만 단어로 학습된 삼단어(TRIGRAM) ARPA 모델과 Kneser-Ney 스무딩을 사용한 언어 모델링.","Kaldi 기반의 독립형 베이스라인 레시피로 데이터 준비, 어휘, LM, GMM-DNN 학습 및 평가를 포괄한다."]
research_questions:[

실험 결과

연구 질문

RQ1대규모 Mandarin ASR 코퍼스가 산업 규모의 시스템 개발과 연구를 어떻게 가능하게 하는가?
RQ2TDNN-LFMMI 시스템과 i-vector 조건화로 다중 음향 채널에서 달성 가능한 성능 향상은 무엇인가?
RQ3분절, 어휘 설계(DaCiDian), 그리고 유연한 음소 매핑이 Mandarin ASR의 인식 정확도에 어떤 영향을 미치는가?
RQ4AISHELL-2가 산업용 Mandarin ASR 파이프라인의 전달 학습 및 견고성 연구를 촉진할 수 있는가?

주요 결과

Model	dev_android_CER	dev_ios_CER	dev_mic_CER	test_android_CER	test_ios_CER	test_mic_CER	Training_time_hours
Mono	47.08	43.37	47.33	45.40	44.81	44.28	0.5
tri1	26.61	22.94	26.55	26.08	24.79	25.36	1
tri2	24.59	21.47	24.59	23.82	22.69	23.37	2
tri3(LDA+MLLT)	22.24	18.86	22.47	21.00	19.77	21.10	2.5
Chain-TDNN	10.43	9.10	11.84	9.59	8.81	10.87	15

Chain TDNN 시스템은 모든 채널에서 성능이 크게 개선되며 CER을 감소시킨다: dev_android 10.43% , dev_ios 9.10% , dev_mic 11.84% , test_android 9.59% , test_ios 8.81% , test_mic 10.87%.
tri1에서 tri3(LDA+MLLT)로의 순차적 개선은 채널 간 CER를 크게 낮추며, 학습 시간 2.5시간으로 test_android CER 21.00% 및 test_mic CER 21.10%에 도달한다.
기본 mono 및 tri1/tri2 구성은 특징 변환 및 LFMMI 최적화의 이점을 강조하며 정확도 향상을 보인다.
AISHELL-2는 iOS 데이터의 1000시간과 iOS, Android, Mic 채널의 dev/test 데이터를 개방하고 재현성을 위한 Kaldi 레시피를 완비해 제공한다.
결과는 iOS 데이터의 채널 간 성능 우위와 산업 규모 Mandarin ASR 파이프라인의 가능성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.