QUICK REVIEW

[論文レビュー] Wav2Letter: an End-to-End ConvNet-based Speech Recognition System

Ronan Collobert, Christian Puhrsch|arXiv (Cornell University)|Sep 11, 2016

Speech Recognition and Synthesis参考文献 24被引用数 248

ひとこと要約

本論文は、端-to-端のConvNetベースの音響モデルを、グラフェムベースの音声認識のために AutoSegCriterion (ASG) で訓練し、単純なビーム探索デコーダと組み合わせたもので、force alignmentまたはHMM/GMMパイプラインなしで LibriSpeech において競争力のある結果を達成する。

ABSTRACT

This paper presents a simple end-to-end model for speech recognition, combining a convolutional network based acoustic model and a graph decoding. It is trained to output letters, with transcribed speech, without the need for force alignment of phonemes. We introduce an automatic segmentation criterion for training from sequence annotation without alignment that is on par with CTC while being simpler. We show competitive results in word error rate on the Librispeech corpus with MFCC features, and promising results from raw waveform.

研究の動機と目的

ASR における force-aligned な音素転写の必要性を、グラフェム直接訓練で排除する。
1Dの畳み込みニューラルネットワークを用いた、グラフベースのセグメンテーション基準を取り入れた、単純なエンドツーエンドアーキテクチャを提案する。
MFCC、パワースペクトラム、未処理波形入力を用いた LibriSpeech で競争力のある WER を示す。
ASG が標準ベンチマークで速度と精度の点でCTCと同等または上回ることを示す。

提案手法

入力特徴量（MFCC、パワースペクトル、または生波形）を文字スコアへ写像する音響モデルとして1D畳み込みニューラルネットワークを用いる。
未正規化ノードスコアと全体正規化を持つグラフベースのセグメンテーション基準であるAutoSegCriterion (ASG) を導入し、ブランクラベルを回避する。
CTC に似た log-add 演算を用いて前方スコアを最適化する、時間にわたる展開グラフを用いたASGで訓練（ブランクなし）。
言語モデル統合（KenLM）と語単位挿入ペナルティを備えた単純な1パスビームサーチデコーダを組み込む。
16 kHz の音声、30文字グラフェムセット（アポストロフィ、サイレンス、繰り返しマーカーを含む）を用いて LibriSpeech を評価し、ASG を CTC と比較する。

実験結果

リサーチクエスチョン

RQ1force alignment なしのエンドツーエンドのグラフェムベース音響モデルは LibriSpeech で競争力のある WER を達成できるか？
RQ2ブランクなしの系列ラベリングにおいて、AutoSegCriterion は CTC と同等またはそれ以上の性能と速度を提供するか？
RQ3このアーキテクチャの下で、MFCC、パワースペクトル、raw waveform 入力はエンドツーエンドのグラフェムASRでどう比較されるか？
RQ4データ拡張と学習データサイズがASGの性能に与える影響は？
RQ5外部言語モデルを用いた単純デコーダは標準ベンチマークでどれくらいの性能を示すか？

主な発見

ASG は CPU 実装時、同じデータで CTC と同等のLERを達成し、長い系列では高速になる。
LibriSpeech では、MFCC ベースのモデルが dev-clean/ test-clean のそれぞれで約6.9% LERと約7.2% WERに達する（報告されたベスト結果）。
パワースペクトラムと生波形入力は MFCC より高い LER/WER を示すが、競争力を保ち、データ量の増加とともに改善が見られる。
データ拡張は小さい訓練セットでより効果的であり、大規模データでは MFCC とパワースペクトルの性能が類似する。
提案されたエンドツーエンドシステムは HMM/GMM の force alignment なしで動作し、効率的に動作する（例：デコードは一部のベースラインRNN系より大幅に速い）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。