QUICK REVIEW

[論文レビュー] Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks

Ying Zhang, Mohammad Pezeshki|arXiv (Cornell University)|Jan 10, 2017

Speech Recognition and Synthesis参考文献 27被引用数 72

ひとこと要約

この論文は、再帰層を排除したエンドツーエンドの CNN-CTC フレームワークを音声認識に提案し、TIMIT での音素認識の競争力を示し、LSTM よりも学習が速いことを示す。

ABSTRACT

Convolutional Neural Networks (CNNs) are effective models for reducing spectral variations and modeling spectral correlations in acoustic features for automatic speech recognition (ASR). Hybrid speech recognition systems incorporating CNNs with Hidden Markov Models/Gaussian Mixture Models (HMMs/GMMs) have achieved the state-of-the-art in various benchmarks. Meanwhile, Connectionist Temporal Classification (CTC) with Recurrent Neural Networks (RNNs), which is proposed for labeling unsegmented sequences, makes it feasible to train an end-to-end speech recognition system instead of hybrid settings. However, RNNs are computationally expensive and sometimes difficult to train. In this paper, inspired by the advantages of both CNNs and the CTC approach, we propose an end-to-end speech framework for sequence labeling, by combining hierarchical CNNs with CTC directly without recurrent connections. By evaluating the approach on the TIMIT phoneme recognition task, we show that the proposed model is not only computationally efficient, but also competitive with the existing baseline systems. Moreover, we argue that CNNs have the capability to model temporal correlations with appropriate context information.

研究の動機と目的

再帰的ネットを用いず CNN と CTC を活用してエンドツーエンドの音声認識を動機付ける。
積み重ねられた畳み込みと文脈ウィンドウを通じて時系列依存を捉える深いCNNアーキテクチャを開発する。
TIMIT の音素認識タスクでの性能を評価し、LSTM ベースのベースラインと比較する。
性能と学習効率に影響を与えるアーキテクチャ要因（深さ、フィルターサイズ、活性化関数）を特定する。

提案手法

スペクトログラム様の特徴量上で周波数軸方向にプーリングを行う深い2D畳み込みニューラルネットワークを設計する。
時間と周波数にわたってパディングを行い、系列長を保持する2D畳み込みを適用する。
ReLU、PReLU、Maxout の活性化と最初の畳み込み層後の最大プーリングを試す。
CTC 層を上に付けて明示的なアラインメントなしに出力列を生成する。
Adam で学習し、SGD でファインチューニングを行い、ドロップアウトと L2 正則化を含める。
テスト時にはCTC出力の最良経路デコーディングを用いる。

実験結果

リサーチクエスチョン

RQ1再帰層なしの深いCNNとCTCで、TIMIT で競争力のある音素認識を実現できるか。
RQ2アーキテクチャの選択（深さ、フィルターサイズ、活性化関数）は性能と学習効率にどのように影響するか。
RQ3CNN-CTC の学習は、音素レベルのタスクでRNN/LSTMベースのエンドツーエンド手法より速く安定しているか。

主な発見

CNN-CTCモデルは TIMIT のコアテストセットで 18.2% の音素誤り率を達成しており、LSTM およびトランスデューサ系のベースラインと競合する。
より深いアーキテクチャとより大きなフィルターサイズは性能を向上させ、CNN-(3,5)-10L-maxout はテスト PER 18.2%、開発 PER 16.7%（最良の開発 PER: 16.7%）を達成。
Maxout 活性化はこの設定で ReLU および PReLU を上回る。
CNN モデルは同等の LSTM モデルに比べて TIMIT で約2.5倍速く学習する（追加の最適化なし）。
最初の層の後だけ周波数軸方向にプーリングすることで、時間分解能を損なうことなくスペクトルの変動を抑制できる。
正則化（ドロップアウト、ウェイト減衰）は、TIMIT のような小規模データセットでの一般化に重要である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。