Skip to main content
QUICK REVIEW

[論文レビュー] Kernel Approximation Methods for Speech Recognition

Avner May, Alireza Bagheri Garakani|arXiv (Cornell University)|Jan 13, 2017
Speech Recognition and Synthesis被引用数 43
ひとこと要約

この論文は、音声認識における音声モデリングのためのスケーラブルなカーネル近似手法を提案しており、ランダムフーリエ特徴量と、フレームレベルの指標に基づく特徴選択および早期停止といった新たな技術を用いる。これらの改善により、TIMIT、Broadast News、IARPA Babel データセットにおいて、カーネルモデルが深層ニューラルネットワーク(DNN)と同等の性能を達成し、語彙誤り率/文字誤り率の差を顕著に縮小することが示された。

ABSTRACT

We study large-scale kernel methods for acoustic modeling in speech recognition and compare their performance to deep neural networks (DNNs). We perform experiments on four speech recognition datasets, including the TIMIT and Broadcast News benchmark tasks, and compare these two types of models on frame-level performance metrics (accuracy, cross-entropy), as well as on recognition metrics (word/character error rate). In order to scale kernel methods to these large datasets, we use the random Fourier feature method of Rahimi and Recht (2007). We propose two novel techniques for improving the performance of kernel acoustic models. First, in order to reduce the number of random features required by kernel models, we propose a simple but effective method for feature selection. The method is able to explore a large number of non-linear features while maintaining a compact model more efficiently than existing approaches. Second, we present a number of frame-level metrics which correlate very strongly with recognition performance when computed on the heldout set; we take advantage of these correlations by monitoring these metrics during training in order to decide when to stop learning. This technique can noticeably improve the recognition performance of both DNN and kernel models, while narrowing the gap between them. Additionally, we show that the linear bottleneck method of Sainath et al. (2013) improves the performance of our kernel models significantly, in addition to speeding up training and making the models more compact. Together, these three methods dramatically improve the performance of kernel acoustic models, making their performance comparable to DNNs on the tasks we explored.

研究の動機と目的

  • 大規模な自動音声認識(ASR)タスクにおけるカーネル手法のスケーラビリティの制限を解決すること。
  • 標準的な ASR ベンチマークにおいて、カーネルベースの音声モデルと深層ニューラルネットワーク(DNN)の性能差を埋めること。
  • 一般化性能を損なわせることなく、カーネルモデルの効率性と正確性を向上させる実用的手法を開発すること。
  • フレームレベルの指標が認識誤り率と相関している場合、その指標が効果的な早期停止を可能にし、カーネルモデルおよび DNN モデルの両方の性能向上に寄与することを示すこと。

提案手法

  • 論文は、Rahimi と Recht (2007) が提唱したランダムフーリエ特徴量法を用いてカーネル関数を近似し、大規模な ASR データセットでの効率的な学習を可能にする。
  • 学習された重みに基づき、情報量の多いランダム特徴量を段階的に選択する新しい特徴選択アルゴリズムを提案する。これにより、モデルサイズと学習時間が削減される。
  • トークン誤り率(TER)と強く相関するフレームレベルの指標を導入し、訓練中に監視することで、早期停止を効果的に行う。
  • Sainath 他 (2013a) が提唱した線形バッブネック技術をカーネルモデルに適用し、性能向上とモデルのコンact化を実現する。
  • 特徴選択プロセスに基づいて、入力レベルでの非線形的特徴選択を可能にする新しいカーネル関数を導入する。
  • ランダム特徴量近似、特徴選択、および指標誘導型早期停止を統合することで、カーネルモデルの性能を向上させる。

実験結果

リサーチクエスチョン

  • RQ1ランダム特徴量近似を用いることで、カーネル手法を大規模な ASR タスクに効果的にスケーリングできるか?
  • RQ2ランダム特徴量に対する特徴選択により、モデルサイズと学習時間を削減しながらも、性能を維持または向上できるか?
  • RQ3認識誤り率(TER)と強く相関するフレームレベルの指標は、標準的な交差エントロピー損失よりも優れた早期停止を可能にするか?
  • RQ4線形バッブネック手法は、DNN と同様にカーネル音声モデルの性能向上に寄与するか?
  • RQ5カーネルモデルは、標準的な ASR ベンチマークで DNN と同等の性能にまで到達できるか、その程度はどの程度か?

主な発見

  • TIMIT データセットでは、最良のカーネルモデルが語彙誤り率(WER)31.0% を達成し、最良の DNN モデルの 31.0% とほぼ同等であった。
  • ベンガル語(IARPA-babel103b)データセットでは、カーネルモデルが文字誤り率(CER)30.0% を達成し、最良の DNN モデルの 30.0% と同等であった。
  • 50時間分の Broadast News(BN-50)サブセットでは、カーネルモデルが WER 50.0% を達成したが、最良の DNN は 49.0% であった。
  • 広東語(IARPA-babel101)データセットでは、カーネルモデルが CER 44.0% を達成し、最良の DNN モデルの性能と一致した。
  • 特徴選択、フレームレベル指標に基づく早期停止、および線形バッブネックの組み合わせにより、カーネルモデルと DNN モデル間の WER の差は、全データセット平均で最大20%まで縮小された。
  • 早期停止に用いたフレームレベル指標は、カーネルモデルおよび DNN モデルの両方で TER の著しい改善をもたらし、認識目的に合わせた訓練の有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。