QUICK REVIEW

[論文レビュー] An End-to-End Architecture for Keyword Spotting and Voice Activity Detection

Christopher T. Lengerich, Awni Hannun|arXiv (Cornell University)|Nov 28, 2016

Speech Recognition and Synthesis参考文献 11被引用数 32

ひとこと要約

本稿では、双方向ゲート付き再帰型ニューラルネットワーク（BLSTM）を用いたエンドツーエンドの深層学習アーキテクチャを提案する。このアーキテクチャは、再訓練を必要とせずにキーワード検出（KWS）と音声活動検出（VAD）を同時に実行する。モデルはKWSで5%の偽陽性率における98.1%の真陽性率、VADで99.8%の真陽性率を達成し、強力なベースラインを上回る性能を示す。また、ラベルが整列した学習データや別々のモデル保守を必要としない。

ABSTRACT

We propose a single neural network architecture for two tasks: on-line keyword spotting and voice activity detection. We develop novel inference algorithms for an end-to-end Recurrent Neural Network trained with the Connectionist Temporal Classification loss function which allow our model to achieve high accuracy on both keyword spotting and voice activity detection without retraining. In contrast to prior voice activity detection models, our architecture does not require aligned training data and uses the same parameters as the keyword spotting model. This allows us to deploy a high quality voice activity detector with no additional memory or maintenance requirements.

研究の動機と目的

再訓練を必要とせずにキーワード検出（KWS）と音声活動検出（VAD）を両方実行する1つのニューラルネットワークアーキテクチャの開発。
音声活動検出におけるフレームごとのラベルや手作業で設計された特徴量の必要性を排除すること。
修正されたCTCスコアリングアルゴリズムを用いて、オンラインキーワード検出のための低遅延・リアルタイム推論を可能にすること。
トレーニング時に合成ノイズを用いたデータ拡張により、騒音環境下でのモデルの耐性を向上させること。
KWSとVADのタスク間でモデルパラメータを共有することで、導入および保守のオーバーヘッドを削減すること。

提案手法

モデルは2次元畳み込み層に続いて3層のゲート付き再帰層（BLSTM）と最終のソフトマックス層を用い、空白および空白文字トークンを含む文字レベルの確率を出力する。
ラベルが整列していない文字レベルのトランスクリプト上でエンドツーエンドに学習され、強制的アライメントの必要性を回避するため、Connectionist Temporal Classification（CTC）損失関数が使用される。
キーワード検出のため、ウィンドウサイズの感度を低下させるために、キーワードの最初と最後の文字の周囲にワイルドカードを含む、修正されたCTCスコアリングアルゴリズムが計算に用いられる。
音声活動検出のため、スライドウィンドウ内の空白トークンの累積確率の1から引いた値が音声の確率として算出される。
時間ステップとラベル位置を動的に追跡することで、前方確率を追跡する新しい推論アルゴリズムが考案された。
キーワードデータは、526,000件のトランスクリプト発話、1,544件のキーワード例、57,000件のノイズクリップを組み合わせて学習され、キーワードデータは10回にわたってランダムなノイズクリップを追加することでデータ拡張された。

実験結果

リサーチクエスチョン

RQ11つのエンドツーエンドのニューラルネットワークアーキテクチャが、共有パラメータを用いてキーワード検出と音声活動検出の両方を実行できるか？
RQ2CTCベースのモデルは、VADのためのフレームごとのラベルを必要とせずに、KWSおよびVADの両方で高い精度を達成できるか？
RQ3トレーニング時に合成ノイズを用いたデータ拡張は、騒音環境下でのモデルの耐性にどのように影響するか？
RQ4モデルの深さや幅が、KWSおよびVADの両タスクにおける性能にどの程度向上をもたらすか？
RQ5オンラインキーワード検出において、高精度な検出を保ちながら低遅延を維持できる推論アルゴリズムを設計できるか？

主な発見

提案されたモデルは、キーワード検出において5%の偽陽性率で98.1%の真陽性率を達成し、DNN-HMMベースライン（96.2%）を上回った。
音声活動検出では、5%の偽陽性率で99.8%の真陽性率を達成し、WebRTC VADベースライン（44.6%）を著しく上回った。
トレーニング時に合成ノイズを追加することで、KWSの性能は5%の偽陽性率における真陽性率を94.3%から98.9%に向上させた。
VAD性能は、モデルの深さが2層を超えるか、幅が128ユニットを超えると飽和し、ほとんどの大規模モデルが5%の偽陽性率で99.9%以上の真陽性率を達成した。
3層×256ユニット、約150万パラメータのモデルは、現代のスマートフォンに低遅延で効果的にデプロイされ、追加のメモリや保守のオーバーヘッドが一切かからなかった。
KWSとVADの両方で同じアーキテクチャとパラメータが使用されたため、別々のモデルや再トレーニングの必要性が排除された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。