QUICK REVIEW

[論文レビュー] Residual Convolutional CTC Networks for Automatic Speech Recognition

Yisen Wang, Xuejiao Deng|arXiv (Cornell University)|Feb 24, 2017

Speech Recognition and Synthesis参考文献 25被引用数 66

ひとこと要約

本論文は、残差接続とエンドツーエンドのCTC訓練を備えた深くて広い RCNN-CTC アーキテクチャと、WSJおよび Tencent Chat データ上で ASR 精度を向上させる CT Cベースのシステム組み合わせを導入する。

ABSTRACT

Deep learning approaches have been widely used in Automatic Speech Recognition (ASR) and they have achieved a significant accuracy improvement. Especially, Convolutional Neural Networks (CNNs) have been revisited in ASR recently. However, most CNNs used in existing work have less than 10 layers which may not be deep enough to capture all human speech signal information. In this paper, we propose a novel deep and wide CNN architecture denoted as RCNN-CTC, which has residual connections and Connectionist Temporal Classification (CTC) loss function. RCNN-CTC is an end-to-end system which can exploit temporal and spectral structures of speech signals simultaneously. Furthermore, we introduce a CTC-based system combination, which is different from the conventional frame-wise senone-based one. The basic subsystems adopted in the combination are different types and thus mutually complementary to each other. Experimental results show that our proposed single system RCNN-CTC can achieve the lowest word error rate (WER) on WSJ and Tencent Chat data sets, compared to several widely used neural network systems in ASR. In addition, the proposed system combination can offer a further error reduction on these two data sets, resulting in relative WER reductions of $14.91\%$ and $6.52\%$ on WSJ dev93 and Tencent Chat data sets respectively.

研究の動機と目的

時刻情報とスペクトル情報を捉えるためにASRにおけるより深いCNNの必要性を動機づける。
CTC損失を用いてASRのための非常に深く広いCNNアーキテクチャを残差結合とともに開発する。
CTCを採用してフレーム単位のアラインメントなしでエンドツーエンド訓練を可能にする。
補完的なサブシステムを活用する新規のCTCベースのシステム組み合わせを提案する。
標準データセットと大規模データセットでWERの改善をデモンストレーションし、システム組み合わせの利点を分析する。

提案手法

RCNN-CTCを提案する：音声の時-周波数構造をモデル化する深い（40層を超える）および広いCNNで残差ブロックを持つ。
大きな初期畳み込みを用い、その後に小さな3x3フィルタとReLU活性化を用いたバッチ正規化を伴う4つのResBlocksのグループを配置する。
事前に整列データなしで音声フレームをラベル列に合わせるため、CTC損失でエンドツーエンド訓練を行う。
最大正確語率（MCWR）基準で多様なサブシステム（RCNN-CTC、BLSTM、CLDNN）を選択するCTCベースのシステム組み合わせを導入する。
サブシステム間で整列、時間正規化、Word transition network (WTN) を構築し、最終的な転写を生成するために信頼度最大の投票方式を適用する。
1-best対N-best仮説を分析し、この設定ではN-bestからの改善が見られないことを発見した。

実験結果

リサーチクエスチョン

RQ1非常に深くて広い残差CNNとCTCは従来のCNN/LSTMベースのASRモデルを上回ることができるか？
RQ2エンドツーエンドのCTC訓練と残差CNNを組み合わせると、WSJやTencent Chatのような大規模モバイルデータでWERを低下させられるか？
RQ3異種のサブシステムを活用したCTCベースのシステム組み合わせは、単一のRCNN-CTCモデルを超える追加の利点を提供できるか？

主な発見

RCNN-CTC は VGG+CTC、CLDNN+CTC、BLSTM+CTC と比較して、WSJ eval92 および dev93 で単一システムのベースラインの中で最も低い WER を達成。
提案されたCTCベースのシステム組み合わせはさらなるWERの削減をもたらし、WSJ dev93で最大14.91%相対改善、Tencent Chatで6.52%を最良の単一システムより達成。
Tencent Chatでは、RCNN-CTCは他の単一システム（VGG、CLDNN、BLSTM）よりWERが優れており、大規模データでの深いCNNと残差接続の利点を示している。
MCWRベースのサブシステム選択は、RCNN-CTCとBLSTMおよびCLDNNの組み合わせを推奨し、WSJおよびTencent Chatの実験で最良の組み合わせWERを達成。
提案されたシステム組み合わせではN-best仮説を使用しても1-bestを上回る改善は得られなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。