QUICK REVIEW

[論文レビュー] Small-footprint Keyword Spotting Using Deep Neural Network and Connectionist Temporal Classifier

Zhiming Wang, Xiaolong Li|arXiv (Cornell University)|Sep 12, 2017

Speech Recognition and Synthesis参考文献 10被引用数 23

ひとこと要約

本稿では、キーワード固有の学習データが不足する問題を克服するため、深層ニューラルネットワーク（DNN）とコネクショニスティック時系列分類器（CTC）を用いた小型フットプリントのキーワードスポットイング（KWS）システムを提案する。大規模なLVCSRコーパスを活用し、発音子レベルのモデリングによるエンドツーエンド学習を可能にすることで、CTC-KWSはDNNオンリーベースのベースラインと同等の性能を達成しながら、計算複雑度は同一のままで、ユーザーがカスタマイズした任意のトリガーワードをサポートする。

ABSTRACT

Mainly for the sake of solving the lack of keyword-specific data, we propose one Keyword Spotting (KWS) system using Deep Neural Network (DNN) and Connectionist Temporal Classifier (CTC) on power-constrained small-footprint mobile devices, taking full advantage of general corpus from continuous speech recognition which is of great amount. DNN is to directly predict the posterior of phoneme units of any personally customized key-phrase, and CTC to produce a confidence score of the given phoneme sequence as responsive decision-making mechanism. The CTC-KWS has competitive performance in comparison with purely DNN based keyword specific KWS, but not increasing any computational complexity.

研究の動機と目的

組み込みキーワードスポットイングシステムにおけるキーワード固有の学習データ不足の課題に対処すること。
大規模なドメイン特化データ収集を必要とせずに、柔軟でユーザーがカスタマイズしたトリガーワードをサポートすること。
メモリと計算リソースが限られたモバイルデバイスに適した低複雑度のKWSシステムを開発すること。
一般向けのLVCSRコーパスを活用して事前学習することで、高価なキーワード固有データへの依存度を低減すること。
従来のDNNベースのKWSと同等の計算複雑度を維持しつつ、競争力のある性能を達成すること。

提案手法

原始的な音響特徴（40次元のログフィルタバンクエネルギー）を、文脈独立（CI）発音子ユニット（ブランク記号を含む）の尤度確率に写像するためのDNNを用いる。
CTCをシーケンスレベルのスコアリング機構として採用し、与えられたキーワードの発音子シーケンスに対する信頼性スコアを計算することで、強制アライメントを必要とせずにエンドツーエンド学習を可能にする。
遅延を低減しつつ識別性能を維持するため、非対称なコンテキストスタック（過去10フレーム、未来5フレーム）を採用する。
スタックされた特徴に対してケプストラム平均・分散正規化を適用し、耐障害性を向上させるとともに、計算負荷を低減する。
実行時のコストを削減するため、音声活動検出（VAD）領域でのみシステムをデプロイする。
キーワード固有データが限られている状況でも、再学習からではなく、適応的微調整を採用することで性能を向上させる。

実験結果

リサーチクエスチョン

RQ1キーワード固有のデータが不足する状況において、大規模なLVCSRコーパスを効果的に活用してキーワードスポットイングシステムを学習できるか？
RQ2CTCベースのKWSフレームワークは、DNNオンリーベースのKWSシステムと比較して、低い計算複雑度を維持しながら競争力のある性能を達成できるか？
RQ3CTC-KWSモデルは、再学習を必要とせずに、ユーザーがカスタマイズした任意のトリガーワードに一般化できるか？
RQ4モデルサイズや誤検出率が異なる条件下で、CTC-KWSの性能はベースラインDNNベースKWSと比べてどの程度か？
RQ5限られたキーワード固有データに対する適応的微調整が、システムの検出精度をどの程度向上させるか？

主な発見

CTC-KWSは、パrameter数が少ないにもかかわらず、すべてのモデルサイズでベースラインDNNベースKWSを上回る性能を示す。これは、より優れたデータ効率性に起因する。
誤検出率1.5％の条件下で、CTC-KWSは特にモデルサイズが拡大する際、ベースラインを上回る優れた性能を達成する。
CTC-KWSは、ベースラインDNN-KWSと同様の計算複雑度を維持しており、両システムのパrameter数はほぼ同一である。
限られたキーワード固有データに対する適応的微調整は、特に誤検出率が低い状況で一貫した性能向上をもたらす。
CTCモデルは、音響特徴と発音子シーケンスの間に意味のあるアライメントを自動で学習する。ブランクユニットは、不確実性や沈黙を示している。
本システムは、ARM A8（512MB、1GHz）でRTF 0.2218、MIPS（128MB、1GHz）でRTF 0.3を達成し、モバイルデバイスでリアルタイム性能を発揮する。メモリフットプリントは0.5MBから1.5MBの範囲に収まる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。