QUICK REVIEW

[論文レビュー] Attention-Based End-to-End Speech Recognition in Mandarin.

Changhao Shan, Junbo Zhang|arXiv (Cornell University)|Jul 22, 2017

Speech Recognition and Synthesis参考文献 18被引用数 6

ひとこと要約

本論文は、漢字埋め込みとL2正則化、重みノイズ、フレームスキップなどの訓練最適化手法を用いて、表意文字である中国語の特徴と大きな語彙の課題に対処する、アテンションベースのエンドツーエンド音声認識モデルを提案する。MiTV音声検索データセットにおいて、3-gram言語モデルを用いることで、文字誤り率（CER）2.81%、文誤り率（SER）5.77%を達成した。

ABSTRACT

Recently, there has been a growing interest in end-to-end speech recognition that directly transcribes speech to text without any predefined alignments. In this paper, we explore the use of attention-based encoder-decoder model for Mandarin speech recognition on a voice search task. Previous attempts have shown that applying attention-based encoder-decoder to Mandarin speech recognition was quite difficult due to the logographic orthography of Mandarin, the large vocabulary and the conditional dependency of the attention model. In this paper, we use character embedding to deal with the large vocabulary. Several tricks are used for effective model training, including L2 regularization, Gaussian weight noise and frame skipping. We compare two attention mechanisms and use attention smoothing to cover long context in the attention model. Taken together, these tricks allow us to finally achieve a character error rate (CER) of 3.58% and a sentence error rate (SER) of 7.43% on the MiTV voice search dataset. While together with a trigram language model, CER and SER reach 2.81% and 5.77%, respectively.

研究の動機と目的

表意文字表記と大きな語彙のため、エンドツーエンドのアテンションベースモデルを中国語に適用することの難しさに対処する。
訓練中のアテンションメカニズムにおける条件付き依存関係の課題を克服する。
効果的な訓練技術を通じてモデルのロバスト性と収束性を向上させる。
文字レベル出力を用いて中国語音声検索タスクで最先端の性能を達成する。

提案手法

中国語の表意文字表記システムに起因する大きな語彙を扱うために、文字埋め込みを採用する。
訓練の安定化と過学習の低減のため、L2正則化とガウスノイズを用いた重みノイズを適用する。
計算負荷の低減と訓練効率の向上のため、フレームスキップを実装する。
2種類のアテンションメカニズムを比較し、注意スムージングを用いて長距離依存関係のモデリングを向上させる。
認識精度のさらなる向上のため、3-gram言語モデルを統合する。
音声特徴を直接文字列にマッピングするため、エンコーダ・デコーダアーキテクチャにアテンションを組み込む。

実験結果

リサーチクエスチョン

RQ1中国語の複雑な表記体系と大きな語彙を考慮しても、エンドツーエンドのアテンションベースモデルが中国語音声を効果的に認識できるか？
RQ2重みノイズやフレームスキップなどの訓練技術が、モデルの収束性と性能に与える影響は何か？
RQ3長距離依存関係をモデリングする際、異なるアテンションメカニズムの相対的な有効性は何か？
RQ4注意スムージングは、アテンションメカニズムにおける文脈モデリングをどの程度向上できるか？
RQ5言語モデルを統合することで、中国語のエンドツーエンドASRにおける誤り率はどの程度低減できるか？

主な発見

提案モデルは、言語モデルを用いない場合、MiTV音声検索データセットで文字誤り率（CER）3.58%を達成した。
3-gram言語モデルを適用すると、CERは2.81%に低下し、言語モデリングの有効性が裏付けられた。
言語モデルなしでは文誤り率（SER）は7.43%であったが、3-gram言語モデルを適用することで5.77%に低下した。
文字埋め込み、L2正則化、フレームスキップの組み合わせは、訓練の安定性とモデル性能を顕著に向上させた。
注意スムージングにより、アテンションメカニズムにおける長距離文脈的依存関係のモデリングが改善された。
アーキテクチャ的および訓練的イノベーションを通じて、中国語の表意文字表記と大きな語彙の課題に成功裏に対処した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。