Skip to main content
QUICK REVIEW

[論文レビュー] The CAPIO 2017 Conversational Speech Recognition System

Kyu J. Han, Akshay Chandrashekaran|arXiv (Cornell University)|Dec 29, 2017
Speech Recognition and Synthesis参考文献 5被引用数 77
ひとこと要約

CAPIO 2017 システムは densely connected LSTMs(dense LSTMs)とパラメータ平均化による単純な音響モデル適応を導入し、NIST 2000 Hub5 English で最先端の WER を達成します。また、TED-LIUM や LibriSpeech のような非電話データでも強力な結果を示します。

ABSTRACT

In this paper we show how we have achieved the state-of-the-art performance on the industry-standard NIST 2000 Hub5 English evaluation set. We explore densely connected LSTMs, inspired by the densely connected convolutional networks recently introduced for image classification tasks. We also propose an acoustic model adaptation scheme that simply averages the parameters of a seed neural network acoustic model and its adapted version. This method was applied with the CallHome training corpus and improved individual system performances by on average 6.1% (relative) against the CallHome portion of the evaluation set with no performance loss on the Switchboard portion. With RNN-LM rescoring and lattice combination on the 5 systems trained across three different phone sets, our 2017 speech recognition system has obtained 5.0% and 9.1% on Switchboard and CallHome, respectively, both of which are the best word error rates reported thus far. According to IBM in their latest work to compare human and machine transcriptions, our reported Switchboard word error rate can be considered to surpass the human parity (5.1%) of transcribing conversational telephone speech.

研究の動機と目的

  • 会話音声認識のための深い音響モデルで勾配消失を緩和するために、 densely connected LSTM アーキテクチャを開発する。
  • シードモデルと適応モデルのパラメータを平均化することで、スケーラブルな音響モデル適応手法を提案する。
  • 多様な phonesets とためらいモデリングを組み合わせて、dense LSTM および CNN-bLSTM のような多様な音響モデルを検討し、システムの頑健性を向上させる。
  • 電話回線データ(Switchboard/CallHome)と非電話回線データ(TED-LIUM/LibriSpeech)で広範な実験を通じてシステムの性能を示す。
  • dense アーキテクチャとシステム結合により、標準ベンチマークで最先端の WER を達成する。

提案手法

  • 勾配消失を抑制するため、dense block 内の全ての前段層の出力を連結する dense LSTM アーキテクチャ(dense LSTMs)を提案する。
  • LF-MMI 訓練と SAT/fMLLR 前処理を用いて、dense TDNN-LSTM および dense CNN-bLSTM の2つの dense LSTM バリアントを実装する。
  • seed モデルと適応版のパラメータを平均化することで音響モデル適応を適用する(適応中の GPU 間でパラメータを平均化)。
  • 複数の phoneset(PronLex, CMU, MSU)と hesitation modeling(2 vs 11 hesitations)を用いて diverse な CNN-bLSTMs を構築し、構成間で訓練・比較する。
  • 言語モデル(4-gram および RNN LM)を訓練し、多様なシステム間で lattice-based minimum Bayes risk のシステム結合を行う。

実験結果

リサーチクエスチョン

  • RQ1 densely connected LSTMs は勾配消失を回避してより深い LSTM ネットワークを音声認識に適用し、残差接続よりも WER を改善できるか。
  • RQ2単純なパラメータ平均化適応は CallHome のドメイン特異的性能を信頼性高く改善し、Switchboard の性能を劣化させないか。
  • RQ3Switchboard および CallHome の複数の phoneset と hesitation モデルで、異なる dense LSTM および CNN-bLSTM 構成はどの程度の性能差を示すか。
  • RQ4多様なモデルのシステム結合は Hub5 English ベンチマークで最先端の WER を達成する上でどの程度効果を発揮するか。
  • RQ5提案された dense アーキテクチャは TED-LIUM や LibriSpeech のような非電話データに一般化するか。

主な発見

  • dense LSTM は層を追加するにつれて継続的に性能が向上し、10 層を超えると residual LSTM より低い WER を達成する。
  • dense CNN-bLSTM および dense TDNN-LSTM のバリアントは non-dense ベースラインより顕著に WER を削減し、PronLex/2 hesitation で堅実な結果を示す。
  • パラメータ平均化による音響モデル適応は CallHome の WER を平均して約 5% 相対的に改善しつつ Switchboard の性能を維持する。
  • 8つの多様なシステムのシステム結合は Switchboard で 5.0%、CallHome で 9.1% の WER を達成し、この設定で当時報告された中で最高であった。
  • RNN LM のリスコアリングは構成全体で一貫した改善をもたらし、特定の dense モデルでは Switchboard の WER が最大で相対的に 8% 減少する。
  • 非電話データ(TED-LIUM LibriSpeech)については、dense アーキテクチャがそれぞれのコーパスの最先端結果に寄与し、組み合わせた場合に達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。