Skip to main content
QUICK REVIEW

[논문 리뷰] WenetSpeech: A 10000+ Hours Multi-domain Mandarin Corpus for Speech Recognition

Binbin Zhang, Hang Lv|arXiv (Cornell University)|2021. 10. 07.
Speech Recognition and Synthesis인용 수 32
한 줄 요약

WenetSpeech를 소개하는 22435시간의 다도메인 Mandarin 말뭉치로서 10005시간의 강한 라벨, 2478시간의 약한 라벨, 그리고 평가 세트를 포함하며 OCR- 및 ASR-보조 파이프라인과 엔드투엔드 라벨 오류 탐지 및 Kaldi, ESPnet, WeNet 전반에 걸친 벤치마크를 제시한다.

ABSTRACT

In this paper, we present WenetSpeech, a multi-domain Mandarin corpus consisting of 10000+ hours high-quality labeled speech, 2400+ hours weakly labeled speech, and about 10000 hours unlabeled speech, with 22400+ hours in total. We collect the data from YouTube and Podcast, which covers a variety of speaking styles, scenarios, domains, topics, and noisy conditions. An optical character recognition (OCR) based method is introduced to generate the audio/text segmentation candidates for the YouTube data on its corresponding video captions, while a high-quality ASR transcription system is used to generate audio/text pair candidates for the Podcast data. Then we propose a novel end-to-end label error detection approach to further validate and filter the candidates. We also provide three manually labelled high-quality test sets along with WenetSpeech for evaluation -- Dev for cross-validation purpose in training, Test_Net, collected from Internet for matched test, and Test\_Meeting, recorded from real meetings for more challenging mismatched test. Baseline systems trained with WenetSpeech are provided for three popular speech recognition toolkits, namely Kaldi, ESPnet, and WeNet, and recognition results on the three test sets are also provided as benchmarks. To the best of our knowledge, WenetSpeech is the current largest open-sourced Mandarin speech corpus with transcriptions, which benefits research on production-level speech recognition.

연구 동기 및 목표

  • 현실 세계의 조건과 도메인 다양성을 반영하는 대규모의 다양하고 포괄적인 Mandarin ASR 말뭉치의 필요성을 제시한다.
  • YouTube 및 Podcast 데이터에서 오디오/텍스트 구간을 수집, 정렬, 검증할 수 있는 확장 가능한 파이프라인을 제공한다.
  • 인기 툴킷 전반의 연구를 촉진하기 위한 벤치마크 및 평가 세트를 공개한다.
  • 명확하게 주석된 신뢰도 기반 데이터 분할을 통해 반지도 학습과 지도 학습 훈련을 가능하게 한다.
  • 확장 가능한 메타데이터와 CC-BY 4.0 비상업용 오픈 소스 가용성을 제공한다.

제안 방법

  • YouTube에서의 단계별 데이터 수집(OCR 기반 자막 추출) 및 Podcast에서의 고품질 ASR 전사.
  • CTC 기반 포스 얼라인먼트를 통해 전사 오류를 탐지하고 라벨 오류 탐지를 위한 포스 디코딩 그래프를 구축한다.
  • 훈련/검증을 위해 Strong Label, Weak Label, Others로 데이터를 분할하기 위한 신뢰도 점수화.
  • 세그먼트별 신뢰도와 소스 도메인 태깅이 포함된 JSON 형식의 광범위한 메타데이터.
  • Kaldi, ESPnet, WeNet 도구 모음에 대한 벤치마크 모델 및 결과를 제공합니다.
Fig. 1 : OCR based YouTube data collection pipeline
Fig. 1 : OCR based YouTube data collection pipeline

실험 결과

연구 질문

  • RQ1생산 환경과 유사한 견고성을 뒷받침하려면 Mandarin ASR 코퍼스는 얼마나 크고 다양해야 하는가?
  • RQ2엔드투엔드 라벨 오류 탐지를 갖춘 OCR 및 고품질 ASR 전사 파이프라인이 웹 데이터로부터 고품질 오디오/텍스트 페어를 생성할 수 있는가?
  • RQ3Mandarin ASR에서 Strong/Weak 라벨 분할이 어떤 이점을 제공하는가?
  • RQ4WenetSpeech 평가 세트에서 Kaldi, ESPnet, WeNet의 벤치마크는 어떻게 성능을 보이는가?
  • RQ5실제 Mandarin ASR 도전과제를 가장 잘 반영하는 벤치마크와 평가 데이터셋은 무엇인가요(Dev, Test_Net, Test_Meeting)?

주요 결과

  • WenetSpeech는 22435시간의 오디오를 포함하며, 그중 10005시간은 Strong Label 데이터, 2478시간은 Weak Label 데이터, 약 9952시간은 Others로 분류된다.
  • 기준선 결과는 더 큰 학습 부분으로 MER% 향상을 보이며 데이터 규모의 이점을 시사한다(표 5).
  • Dev, Test_Net, Test_Meeting에서 Kaldi, ESPnet, WeNet 벤치마크는 AIShell-1에서 Kaldi의 MER은 9.07, 12.83, 24.72, 5.41; ESPNet은 9.70, 8.90, 15.90, 3.90; WeNet은 8.88, 9.70, 15.59, 4.61를 달성한다(표 5).
  • L 부분 하위집합의 Kaldi 결과는 AIShell-1에서 MER가 9.07, 12.83, 24.72, 5.41로 데이터 규모의 영향을 검증한다(표 6).
  • 해당 데이터셋은 지금까지 공개된 가장 큰 Mandarin 코퍼스이며, 보다 일반화된 ASR 연구를 가능하게 한다.
(a) Audiobook
(a) Audiobook

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.