QUICK REVIEW

[論文レビュー] Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM

Takaaki Hori, Shinji Watanabe|arXiv (Cornell University)|Jun 8, 2017

Speech Recognition and Synthesis参考文献 26被引用数 21

ひとこと要約

本論文は、深層VGGベースのCNNエンコーダーと外部RNN言語モデル（RNN-LM）を備えた、統合的CTC-アテンションエンドツーエンドASRモデルを提案し、日本語および中国語音声認識で最先端の性能を達成した。トレーニングおよびビームサーチデコードの両方でCTCとアテンションを組み合わせ（リスコアリングまたはワンパス手法を用い）、別個に学習されたRNN-LMを統合することで、先行システム比5–10%の文字誤り率（CER）低減を達成し、言語資源を必要としない伝統的なハイブリッドASRシステムを上回った。

ABSTRACT

We present a state-of-the-art end-to-end Automatic Speech Recognition (ASR) model. We learn to listen and write characters with a joint Connectionist Temporal Classification (CTC) and attention-based encoder-decoder network. The encoder is a deep Convolutional Neural Network (CNN) based on the VGG network. The CTC network sits on top of the encoder and is jointly trained with the attention-based decoder. During the beam search process, we combine the CTC predictions, the attention-based decoder predictions and a separately trained LSTM language model. We achieve a 5-10\% error reduction compared to prior systems on spontaneous Japanese and Chinese speech, and our end-to-end model beats out traditional hybrid ASR systems.

研究の動機と目的

発音辞書や言語モデルといった複雑なモジュール型コンponentに依存しないエンドツーエンドASRの簡素化を図ること。
トレーニングおよびデコードの両段階でCTCとアテンションの目的関数を統合的に学習させることで認識精度を向上させること。
深層VGGスタイルのCNNエンコーダーを用いて音声表現の学習を強化すること。
言語前処理を伴わない文字レベルのRNN-LMを統合し、言語モデルの性能を向上させること。
エンドツーエンドモデルが、低リソース環境および自然な会話音声タスクにおいて、従来のハイブリッドASRシステムを上回ることを実証すること。

提案手法

モデルは、階層的音声特徴を抽出する目的で、4層の畳み込み層および2層のマックスプーリング層を備えたVGGアーキテクチャに基づく深層CNNエンコーダーを採用している。
統合的CTC-アテンションフレームワークにより、エンコーダーがCTCおよびアテンションの両目的関数で学習され、アライメントの正則化と単調性の向上が図られる。
推論段階では、ビームサーチがCTC予測、アテンションベースのデコーダー出力、およびRNN-LMスコアをリスコアリングまたはワンパスデコードにより統合する。
外部RNN-LMは、ASRに使用された同一のトランスクリプトテキスト上で別個に学習され、主モデルと併用可能または独立して使用可能である。
モデルはChainerディープラーニングフレームワークを用いて学習され、マルチタスク学習（MTL）と速度摺り替えによるデータオーグメンテーションを適用している。
統合的CTC-アテンションデコードでは、CTCとアテンション確率の重み付き組み合わせを用いることで、ロバスト性と精度の向上が図られる。

実験結果

リサーチクエスチョン

RQ1統合的CTC-アテンションデコードは、CTCまたはアテンション単体を使用する場合よりもエンドツーエンドASRの性能を向上させることができるか？
RQ2事前学習済みRNN-LMを統合することで、言語資源を必要としないエンドツーエンドASRにおける認識精度が顕著に向上するか？
RQ3深層VGGスタイルのCNNエンコーダーは、エンドツーエンドASRにおける判別的音声特徴を効果的に捉えられるか？
RQ4エンドツーエンドモデルは、低リソース環境における自然な会話音声タスクにおいて、従来のハイブリッドHMM-GMMまたはDNN-HMMシステムを上回ることができるか？
RQ5主モデルとRNN-LMを同時に学習させることで、最終的な認識精度にどのような影響を与えるか？

主な発見

CSJ自然な日本語音声認識タスクにおいて、MTL-large + 統合デコード + RNN-LM設定で6.9%のCERを達成し、DNNハイブリッドシステムを上回った。
HKUST中国語マンダリンタスクにおいて、VGGとRNN-LMを用いて28.0%のCERを達成し、先行の最先端のラティスフリーMMIシステム（28.2% CER）を上回った。
MTSタスクにおいてワンパス統合デコード手法を用いることで、ベースラインのアテンションモデル（37.8% → 33.9%）でCERが3.8%低減した。
別個に学習されたRNN-LMの統合により、MTSタスクでCERが3.0%低減（37.8% → 33.3%）し、その強力な影響が示された。
日本語および中国語の自然な会話音声データセットにおいて、先行エンドツーエンドシステム比で5–10%の相対的誤り率低減を達成した。
計算制限のためRNN-LMを主モデルと同時に学習できなかったが、それでも最先端の性能を達成しており、最小限の言語的事前知識のもとで強力な一般化能力を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。