Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Convolution for Real-time Keyword Spotting on Mobile Devices

Seungwoo Choi, Seokjun Seo|arXiv (Cornell University)|Apr 8, 2019
Speech Recognition and Synthesis参考文献 20被引用数 42
ひとこと要約

この論文は TC-ResNet を紹介します。これはモバイル端末上でのリアルタイムキーワード検出のための時間畳み込みベースの CNN であり、Google Speech Commands データセットで高精度を維持しつつ最大で 385x の大きなスピードアップを達成し、トレーニングとベンチマークの完全なコードを公開します。

ABSTRACT

Keyword spotting (KWS) plays a critical role in enabling speech-based user interactions on smart devices. Recent developments in the field of deep learning have led to wide adoption of convolutional neural networks (CNNs) in KWS systems due to their exceptional accuracy and robustness. The main challenge faced by KWS systems is the trade-off between high accuracy and low latency. Unfortunately, there has been little quantitative analysis of the actual latency of KWS models on mobile devices. This is especially concerning since conventional convolution-based KWS approaches are known to require a large number of operations to attain an adequate level of performance. In this paper, we propose a temporal convolution for real-time KWS on mobile devices. Unlike most of the 2D convolution-based KWS approaches that require a deep architecture to fully capture both low- and high-frequency domains, we exploit temporal convolutions with a compact ResNet architecture. In Google Speech Command Dataset, we achieve more than extbf{385x} speedup on Google Pixel 1 and surpass the accuracy compared to the state-of-the-art model. In addition, we release the implementation of the proposed and the baseline models including an end-to-end pipeline for training models and evaluating them on mobile devices.

研究の動機と目的

  • モバイル端末上のリアルタイムキーワード検出を、正確で低遅延なモデルで実現する動機づけ。
  • 計算量を削減しつつ、精度を維持または向上させるための時系列畳み込みアーキテクチャ(TC-ResNet)の提案。
  • 2D畳み込みベースラインと比較して、モバイルハードウェア上での実世界の大幅な速度向上を示す。
  • トレーニング・評価・モバイルベンチマーキングのエンドツーエンドのパイプラインと公開コードを提供する。
  • 時系列畳み込みと従来の2D畳み込みがレイテンシと精度に与える影響を定量的に分析する。

提案手法

  • MFCC 特徴を 1D の時系列として扱い、入力を t x 1 x f にリシェイプして時系列畳み込みを適用する。
  • ResNet ベースのバックボーン(TC-ResNet)を採用し、m x 1 カーネル(最初の層で m=3、他の層で m=9)と畳み込みにバイアスを用いず、トレーニング可能なスケール/シフトを持つバッチ正規化を使用する。
  • 残差接続と次元マッチングのショートカットを組み込み、幅倍率を用いて TC-ResNet8/14 バリアントを作成する。
  • 標準的なデータ拡張(ノイズ、ランダムシフト)と MFCC 特徴(40 MFCC、30 ms ウィンドウ、10 ms ストライド)で Google Speech Commands Dataset を用いて学習・評価を行う。
  • 実際の推論時間を測定するために Google Pixel 1 でベンチマークを行い、精度とともに FLOPs、パラメータ、レイテンシを報告する。

実験結果

リサーチクエスチョン

  • RQ1時系列畳み込みは、精度を犠牲にすることなくモバイルのキーワード検出における計算量とレイテンシを削減できるか。
  • RQ2TC-ResNet は、精度、FLOPs、パラメータ、および実世界のモバイル推論時間の点で2D畳み込みベースラインと比較してどうか。
  • RQ3幅倍率とネットワーク深さが、モバイル機器上の KWS における精度とレイテンシのトレードオフに与える影響はどの程度か。

主な発見

  • TC-ResNet8 は Pixel 1 で 96.1% の精度、1.1 ms の推論時間、3.0M FLOPs、66K パラメータを達成。
  • TC-ResNet8-1.5 は 96.2% の精度、2.8 ms、6.6M FLOPs、145K パラメータ。
  • TC-ResNet14 は 96.2% の精度、2.5 ms、6.1M FLOPs、137K パラメータ。
  • TC-ResNet14-1.5 は 96.6% の精度、5.7 ms、13.4M FLOPs、305K パラメータ。
  • CNN-1 と比較して、TC-ResNet8 は 29x のスピードアップと 5.4 ポイントの精度向上を提供。
  • DS-CNN-S/M/L と比較して、TC-ResNet8 はそれぞれ +1.7/+1.2/+0.7 ポイントの精度向上とともに 1.5x/4.7x/15.3x のスピードアップを提供。
  • TC-ResNet8 は Res15 ベースラインに対して 385x のスピードアップと 0.3 ポイントの精度向上を達成しており、時系列畳み込みの有効性を強調。
  • 同等のパラメータを持つ2D ResNet8(2D-ResNet8)バリアントは TC-ResNet8 より 9.2x 遅く、プール済みバリアント(2D-ResNet8-Pool)は高速だが精度が 1.2 ポイント低下し、依然として TC-ResNet8 の 3.2x 遅い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。