QUICK REVIEW

[論文レビュー] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale

Jiayu Du, Xingyu Na|arXiv (Cornell University)|Aug 31, 2018

Speech Recognition and Synthesis参考文献 8被引用数 201

ひとこと要約

AISHELL-2 は iPhone で録音された Mandarin speech の 1000 時間を提供し、語彙処理、特徴量パイプライン、LFMMI TDNN モデルを含む Kaldi ベースのエンドツーエンド産業規模 ASR レシピを提供する。マルチチャンネル評価データとともに。

ABSTRACT

AISHELL-1 is by far the largest open-source speech corpus available for Mandarin speech recognition research. It was released with a baseline system containing solid training and testing pipelines for Mandarin ASR. In AISHELL-2, 1000 hours of clean read-speech data from iOS is published, which is free for academic usage. On top of AISHELL-2 corpus, an improved recipe is developed and released, containing key components for industrial applications, such as Chinese word segmentation, flexible vocabulary expension and phone set transformation etc. Pipelines support various state-of-the-art techniques, such as time-delayed neural networks and Lattic-Free MMI objective funciton. In addition, we also release dev and test data from other channels(Android and Mic). For research community, we hope that AISHELL-2 corpus can be a solid resource for topics like transfer learning and robust ASR. For industry, we hope AISHELL-2 recipe can be a helpful reference for building meaningful industrial systems and products.

研究の動機と目的

大規模な公開 Mandarin ASR コーパスを学術研究と産業用ベースラインのために提供する。
語彙、セグメンテーション、言語モデリングを含む Kaldi ベースのエンドツーエンド ASR レシピを提供する。
複数の音響チャネル（iOS、Android、Mic）での性能を示し、拡張可能なトレーニングパイプラインを確立する。
産業コンテキストにおける Mandarin ASR の転移学習と頑健性研究を奨励する。

提案手法

マルチチャンネルの開発/ テストデータを含む AISHELL-2 1000 時間の iOS 録音 Mandarin 読み Speech コーパスを公開する。
DaCiDian 辞書と Jieba セグメンテーションツールキットを用いた Mandarin 語彙分割パイプラインの開発。
LFMMI 目的関数と i-vector 条件付けを用いた TDNN 音響モデリングに続く GMM-HMM 初期トレーニング。
Kneser-Ney平滑化を用いて 570 万語で学習した trigram ARPA モデルを用いた言語モデリング。
データ準備、辞書、LM、GMM-DNN トレーニング、評価をカバーする Kaldi ベースの自立型ベースラインレシピ。

実験結果

リサーチクエスチョン

RQ1大規模な Mandarin ASR コーパスは産業規模のシステム開発と研究をどのように可能にするのか？
RQ2TDNN-LFMMI システムと i-vector 条件付けを用いた複数の音響チャネルでどの程度の性能向上が得られるのか？
RQ3セグメンテーション、辞書設計（DaCiDian）、柔軟な音素マッピングは Mandarin ASR の認識精度にどう影響するのか？
RQ4AISHELL-2 は産業用 Mandarin ASR パイプラインの転移学習と頑健性研究を促進できるのか？

主な発見

モデル	開発_Android_CER	開発_iOS_CER	開発_Mic_CER	テスト_Android_CER	テスト_iOS_CER	テスト_Mic_CER	訓練時間_時間
Mono	47.08	43.37	47.33	45.40	44.81	44.28	0.5
tri1	26.61	22.94	26.55	26.08	24.79	25.36	1
tri2	24.59	21.47	24.59	23.82	22.69	23.37	2
tri3(LDA+MLLT)	22.24	18.86	22.47	21.00	19.77	21.10	2.5
Chain-TDNN	10.43	9.10	11.84	9.59	8.81	10.87	15

チェーンTDNNシステムは、全チャネルでベースラインと比較してCERを大幅に削減し、dev_androidで10.43%、dev_iosで9.10%、dev_micで11.84%、test_androidで9.59%、test_iosで8.81%、test_micで10.87% を達成した。
tri1 から tri3（LDA+MLLT）への逐次的改善はチャネル全体で CER を大幅に低減し、21.00% の test_android CER および 21.10% の test_mic CER に到達するまでの訓練時間を 2.5 時間に縮めた。
ベースラインの mono および tri1/tri2 構成は、特徴量変換と LFMMI 最適化の利点を示す形で精度改善が進んでいる。
AISHELL-2 は iOS データ 1000 時間および iOS、Android、Mic チャンネルの開発/テストデータのオープンアクセスと、再現性のための完全に文書化された Kaldi レシピを提供している。
結果は iOS データに対するチャネル間の強い性能利点を示し、産業規模 Mandarin ASR パイプラインの実現可能性を支持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。