QUICK REVIEW

[論文レビュー] Achieving Human Parity in Conversational Speech Recognition

Wayne Xiong, Jasha Droppo|arXiv (Cornell University)|Oct 17, 2016

Speech Recognition and Synthesis参考文献 56被引用数 478

ひとこと要約

この論文は NIST 2000 CTS における人間の転写誤りを測定し、LFMMI を用いた CNN/LSTM ベースの音響モデル、先進的な言語モデル、システムの組み合わせにより Switchboard および CallHome のタスクで人間に近いまたは人間同等の WER を達成することを示している。

ABSTRACT

Conversational speech recognition has served as a flagship speech recognition task since the release of the Switchboard corpus in the 1990s. In this paper, we measure the human error rate on the widely used NIST 2000 test set, and find that our latest automated system has reached human parity. The error rate of professional transcribers is 5.9% for the Switchboard portion of the data, in which newly acquainted pairs of people discuss an assigned topic, and 11.3% for the CallHome portion where friends and family members have open-ended conversations. In both cases, our automated system establishes a new state of the art, and edges past the human benchmark, achieving error rates of 5.8% and 11.0%, respectively. The key to our system's performance is the use of various convolutional and LSTM acoustic model architectures, combined with a novel spatial smoothing method and lattice-free MMI acoustic training, multiple recurrent neural network language modeling approaches, and a systematic use of system combination.

研究の動機と目的

NIST 2000 SwitchboardおよびCallHomeデータセットにおける人間の転写誤りを定量化する。
会話音声認識のためのCNN/LSTM音響モデルを開発・最適化する。
格子なし MMI 訓練（LFMMI）と高度な言語モデルを統合して WER を改善する。
補完的な利得を最大化するためのシステム組み合わせ手法を評価する。
同じテストセットで機械の性能を専門の人間の転写と比較する。

提案手法

i-vector 話者適応を用いた CNN 変種（VGG、ResNet、LACE）と BLSTM/LSTM 音響モデルを訓練する。
BLSTM の性能を向上させるため、音響活性に正則化項として空間平滑化を適用する。
混合履歴音響ユニット言語モデルを用いて格子なし MMI（LFMMI）で訓練する。
前方および後方モデルを含む大規模な未剪定 N-gram 言語モデルとニューラル言語モデル（RNN-LMsおよび LSTM-LMs）を用いてリスコアリングする。
混同行列ネットワークに基づく系統組み合わせを行い、貪欲選択と重み最適化で補完的な利得を最大化する。
分散最適化のためにスケーラブルなマルチGPU訓練と1-bit SGDを CNTK を用いて実施する。

実験結果

リサーチクエスチョン

RQ1NIST eval 2000 Switchboard（SWB）および CallHome（CH）部分における人間の転写誤り率はどれくらいか？
RQ2LFMMI 訓練、i-vector 適応、および高度な言語モデルを組み合わせた CNN/LSTM ベースの音響モデルは、これらの CTS ベンチマークで人間並みを超えることができるか？
RQ3空間平滑化、i-vector 条件付け、および格子なし訓練は WER の削減にどれだけ寄与するか？
RQ4システム組み合わせと LM リスコアリングが全体の性能に与える影響は？
RQ5複数のニューラルアーキテクチャとリスコアリング戦略を用いた場合、会話 CTS における機械の性能は人間の性能にどれだけ近づくことができるか？

主な発見

Model	N-gram LM	RNN-LM	LSTM-LM	CH WER (%)	SWB WER (%)
ResNet, 300h training	19.2	-	-	CH: 19.2	SWB: 10.0
ResNet	14.8	-	-	CH: 14.8	SWB: 8.6
ResNet, GMM alignments	15.3	-	-	CH: 15.3	SWB: 8.8
VGG	15.7	-	-	CH: 15.7	SWB: 9.1
VGG + ResNet	14.5	-	-	CH: 14.5	SWB: 8.4
LACE	15.0	-	-	CH: 15.0	SWB: 8.4
BLSTM	16.5	-	-	CH: 16.5	SWB: 9.0
BLSTM, spatial smoothing	15.4	-	-	CH: 15.4	SWB: 8.6
BLSTM, spatial smoothing, 27k senones	15.3	-	-	CH: 15.3	SWB: 8.3
BLSTM, spatial smoothing, 27k senones, alternate dictionary	14.9	-	-	CH: 14.9	SWB: 8.3
BLSTM system combination	13.2	-	-	CH: 13.2	SWB: 7.3
Full system combination	13.0	-	-	CH: 13.0	SWB: 7.3

NIST 2000 Switchboard は 5.9%、CallHome は 11.3% で、専門の転写者を使用している。
自動化システムは Switchboard で 5.8% WER、CallHome で 11.0% WER を達成し、人間の性能をわずかに上回る。
空間平滑化は初期のBLSTM実験で相対的に約5–10% WERを削減した。
i-vector 話者適応と LFMMI 訓練は、モデル全体で追加の相対的な 7–10% WER 削減をもたらす。
複数の BLSTM 変種と音響モデルの最終的なシステム組み合わせは 11.0% CH と 5.8% SWB を達成し、人間のベンチマークに匹敵またはそれを上回る。
500-best ResNet 仮説の Oracle WER は 2.7% (SWB) および 4.9% (CH) で、デコード/探索の改善によりさらなる利得の余地があることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。