Skip to main content
QUICK REVIEW

[論文レビュー] Online Keyword Spotting with a Character-Level Recurrent Neural Network

Kyuyeon Hwang, Minjae Lee|arXiv (Cornell University)|Dec 30, 2015
Advanced Text Analysis Techniques参考文献 19被引用数 32
ひとこと要約

本稿では、オンライン接続的時系列分類(CTC)を用いてトレーニングされた文字レベルの単方向RNNを用いた、エンドツーエンドで文脈に配慮したキーワード検出システムを提案する。リアルタイムで低遅延な連続音声検出が可能であり、音声の事前分割なしに、発音表記や言語モデルを必要とせず、キーワードを検出する。特に単音節キーワードにおいて高い正確性を達成し、DNN-HMMベースラインの6%の計算量で実現可能であり、再トレーニングなしに動的キーワード更新が可能である。

ABSTRACT

In this paper, we propose a context-aware keyword spotting model employing a character-level recurrent neural network (RNN) for spoken term detection in continuous speech. The RNN is end-to-end trained with connectionist temporal classification (CTC) to generate the probabilities of character and word-boundary labels. There is no need for the phonetic transcription, senone modeling, or system dictionary in training and testing. Also, keywords can easily be added and modified by editing the text based keyword list without retraining the RNN. Moreover, the unidirectional RNN processes an infinitely long input audio streams without pre-segmentation and keywords are detected with low-latency before the utterance is finished. Experimental results show that the proposed keyword spotter significantly outperforms the deep neural network (DNN) and hidden Markov model (HMM) based keyword-filler model even with less computations.

研究の動機と目的

  • 部分語の一致で誤検出が生じやすい従来のHMMベースのキーワードスパッターの文脈認識の欠如という限界を解消する。
  • キーワード検出システムにおいて、発音表記やセノンモデル、固定語彙の必要性を回避する。
  • 事前分割なしに、連続音声ストリーム上でリアルタイムで低遅延のオンラインキーワード検出を実現する。
  • フロントエンドRNNの再トレーニングなしに、柔軟で動的なキーワード更新メカニズムを提供する。
  • RNNによる文脈モデリングによって、短い・曖昧なキーワード(例:単音節語)の検出正確性を向上させる。

提案手法

  • 文字レベルの音声モデリングに、ピーチョール接続とフォーゲットゲートを備えた深層単方向LSTMネットワークを採用する。
  • エンドツーエンドで、生の音声特徴を文字および語区切りラベルにマッピングするため、オンラインCTCを用いてRNNをトレーニングする。
  • RNNのソフトな文字レベル出力からキーワードの事後確率を計算するシンプルなバックエンドデコーダーを採用する。
  • 長時間の連結音声ストリーム上で、前方と後方のステップを同期させたオンラインCTCトレーニングを実施し、リアルタイム推論を可能にする。
  • キーワードが長い語の部分語として現れる場合の誤検出をフィルタリングするため、語区切りラベルを導入する。
  • 性能劣化を伴わずに計算コストを削減するため、デコーダーでsum-to-max近似を適用する。

実験結果

リサーチクエスチョン

  • RQ1オンラインCTCトレーニングを用いた文字レベルRNNは、事前分割なしに連続音声において低遅延で文脈に配慮したキーワード検出を達成できるか?
  • RQ2語区切りラベルの導入により、長い語の中に埋め込まれたキーワードに対する誤検出が顕著に減少するか?
  • RQ3RNNがエンドツーエンドで弱い言語モデルと語区切りを学習可能であり、外部語彙や言語モデルの必要性を排除できるか?
  • RQ4特に短い、または単音節キーワードに対して、従来のDNN-HMMハイブリッドモデルと比較して、本手法の正確性と効率性はどの程度優れているか?
  • RQ5フロントエンドRNNの再トレーニングなしに、本システムはどの程度動的キーワード更新をサポートできるか?

主な発見

  • 提案されたCTCベースのキーワードスパッターは、Set A(多音節キーワード)においてF1スコア0.980を達成し、DNN-HMMベースライン(F1 = 0.936)を顕著に上回った。
  • Set B(単音節キーワード)では、F1スコアが0.847を達成した一方で、DNN-HMMベースラインはわずか0.517にとどまり、強力な文脈認識能力が示された。
  • 小さなCTCモデル(3x128ネットワークサイズ)は、DNN-HMMベースラインの計算量の6%で、Set AではF1スコア0.964、Set BではF1スコア0.806を達成した。
  • デコーダーにおけるsum-to-max近似は、検出正確性に悪影響を及げず、効率的な推論を可能にした。
  • 発話終了後200 ms未満のキーワード検出遅延を達成し、人間の反応時間と同等の性能を示した。
  • RNNの再トレーニングなしに、バックエンドデコーダーを介してキーワードの追加・変更が可能であり、柔軟な展開が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。