QUICK REVIEW

[論文レビュー] THCHS-30 : A Free Chinese Speech Corpus

Dong Wang, Xuewei Zhang|arXiv (Cornell University)|Dec 7, 2015

Speech Recognition and Synthesis参考文献 12被引用数 190

ひとこと要約

本論文は、音声認識研究への参入障壁を低減するために設計された、無料の30時間分の中国語音声コーパス「THCHS-30」を紹介する。深層ニューラルネットワーク（DNN）ベースのASRベースラインを提示し、深層自己オートエンコーダ（DAE）を用いたリアルタイムのノイズキャンセリングにより、ノイズ環境下での誤字率（CER）を顕著に改善した。例えば、白色ノイズ下ではCERを96.44％から75.01％に低下させた。

ABSTRACT

Speech data is crucially important for speech recognition research. There are quite some speech databases that can be purchased at prices that are reasonable for most research institutes. However, for young people who just start research activities or those who just gain initial interest in this direction, the cost for data is still an annoying barrier. We support the `free data' movement in speech recognition: research institutes (particularly supported by public funds) publish their data freely so that new researchers can obtain sufficient data to kick of their career. In this paper, we follow this trend and release a free Chinese speech database THCHS-30 that can be used to build a full- edged Chinese speech recognition system. We report the baseline system established with this database, including the performance under highly noisy conditions.

研究の動機と目的

商業音声データベースの高コストが、若手研究者や発展途上国研究者らの参入を妨えている問題に対処すること。
公開可能な高品質な中国語音声コーパスをリリースすることで、「オープンデータ」運動を支援すること。
研究者が無料リソースのみを用いて、完全な中国語音声認識システムをゼロから構築できるようにすること。
今後の研究の基準点として、クリーンな音声およびノイズ混在音声の両方におけるベースライン性能指標を提供すること。
再トレーニングを伴わずに、DAEベースのノイズキャンセリングがASRの耐ノイズ性を向上させることの有効性を実証すること。

提案手法

THCHS-30コーパスは、30名の中国語話者がそれぞれ1000文を読み上げたもので、音声の多様性と語彙の多様性を最大化するように構成された。
音声は16 kHz、16ビットPCMで記録され、トランスクリプションは手動で検証され、高精度を確保した。
標準的な特徴量（Fbank）を用い、特徴量の連結、線形判別分析（LDA）、グローバル正規化を適用したDNNベースの音声認識モデルを訓練した。
深層自己オートエンコーダ（DAE）をノイズキャンセリングのフロントエンドとして適用し、ノイズのないFbank特徴量を、ランダムに選択されたSNRレベル（中央が0 dB）で汚染された入力から再構築するように訓練した。
DAEは、実際のノイズサンプル（車内音、カフェテリア音、白色ノイズなど）とクリアな音声を合成して生成したノイズ混在データを用いて、エンドツーエンドで訓練した。
DAEの出力をDNNモデルの入力として使用し、通常のFbank特徴量の代わりにパイプラインに組み込むことで、メインモデルの再トレーニングなしにリアルタイムのノイズ抑制が可能になった。

実験結果

リサーチクエスチョン

RQ1無料で公開可能な中国語音声コーパスは、実用的でエンドツーエンドの音声認識システムの開発を可能にするか？
RQ2DNNベースのASRシステムは、THCHS-30コーパス上でクリーンな状態とノイズ混在状態の両方でどの程度の性能を示すか？
RQ3音声認識モデルを再トレーニングせずに、DAEベースのノイズキャンセリング手法が、未学習のノイズタイプに対してどの程度のASR性能向上をもたらすか？
RQ4コーパスに非常に珍しいまたは複雑な文が含まれている場合、認識性能に著しい低下が生じるか？また、その影響は軽減可能か？
RQ5軽量でノイズに特化したDAEは、実世界のノイズ環境において効果的に耐ノイズ性を向上させることができるか？

主な発見

THCHS-30コーパスは、30名の話者からなる30時間分のトランスクリプト付き音声を備えた、中国語音声認識システムを構築するのに適した、最初の無料で大規模な中国語音声データベースである。
クリーンな音声条件下では、DNNベースラインが文字誤り率（CER）30.11％、音素誤り率（PER）14.81％を達成し、強力なベースライン性能を示した。
白色ノイズが強い状態（0 dB SNR）では、ノイズキャンセリングなしのCERは96.44％にまで上昇し、システムの極端なノイズへの感受性が顕在化した。
DAEベースのノイズキャンセリングを適用した後、白色ノイズ下のCERは75.01％に低下し、車内ノイズ下では32.13％まで改善された。これは、耐ノイズ性の顕著な向上を示している。
DAE手法は、最小限の計算コストでノイズの影響を効果的に低減でき、メインDNNモデルの再トレーニングを必要としなかった。
クリーンな音声での性能低下は、コーパスの高い音声的多様性と非標準的な文構造が、標準的な音声認識モデルに課題をもたらしていることに起因するとされた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。