Skip to main content
QUICK REVIEW

[論文レビュー] Stochastic Adaptive Neural Architecture Search for Keyword Spotting

Tom Véniat, Olivier Schwander|arXiv (Cornell University)|Nov 16, 2018
Advanced Text Analysis Techniques参考文献 27被引用数 26
ひとこと要約

本稿では、キーワード検出のための推論時において、入力の難易度に応じてより単純なモデルかより深いモデルを選択する学習可能な方策を用いて、動的にニューラルネットワークアーキテクチャを調整するエンドツーエンド微分可能な手法SANAS(Stochastic Adaptive Neural Architecture Search)を提案する。静的モデルと比較して最大99.8%のFLOPs削減を達成しながら、最先端の精度を実現し、Speech Commandsデータセットにおけるエネルギー効率を顕著に向上させた。

ABSTRACT

The problem of keyword spotting i.e. identifying keywords in a real-time audio stream is mainly solved by applying a neural network over successive sliding windows. Due to the difficulty of the task, baseline models are usually large, resulting in a high computational cost and energy consumption level. We propose a new method called SANAS (Stochastic Adaptive Neural Architecture Search) which is able to adapt the architecture of the neural network on-the-fly at inference time such that small architectures will be used when the stream is easy to process (silence, low noise, ...) and bigger networks will be used when the task becomes more difficult. We show that this adaptive model can be learned end-to-end by optimizing a trade-off between the prediction performance and the average computational cost per unit of time. Experiments on the Speech Commands dataset show that this approach leads to a high recognition level while being much faster (and/or energy saving) than classical approaches where the network architecture is static.

研究の動機と目的

  • リソース制限のあるデバイスにおけるリアルタイムキーワード検出において、静的ニューラルネットワークの高い計算コストとエネルギー消費を軽減すること。
  • 入力の難易度に応じて推論時にネットワークアーキテクチャを適応的に変更する手法を開発すること。微分可能な方策を用いて、精度とコストのバランスをとる。
  • 予測損失と平均計算コストのトレードオフを最適化することで、エンドツーエンドでアーキテクチャ適応方策を学習すること。
  • 適応的モデルが認識性能を損なわず、より高い効率性を達成できることを示すこと。
  • ストリーミングメトリクスとFLOPsを効率指標として用いて、Speech Commandsデータセット上でアプローチを検証すること。

提案手法

  • SANASは、各タイムステップにおける隠れ状態に基づいて、アーキテクチャの確率分布を予測する確率的で微分可能なアーキテクチャサーチ機構を用いる。
  • モデルは、ニューラルネットワークによってパrameter化された分布から各タイムステップでアーキテクチャをサンプリングし、現在の入力フレームに対して評価する。
  • 学習目的関数は、予測損失と重み付きコスト項(λ × FLOPs)を組み合わせており、分散低減を伴うモンテカルロ勾配推定により最適化される。
  • サーチスペースを表現するためにスーパーネット構造が用いられ、選択的にアクティブ化される残差型ショートカット接続を備える。
  • 再帰的コンponent(GRU)が文脈を維持し、アーキテクチャ方策ネットワークは隠れ状態を、可能なアーキテクチャの分布へマッピングする。
  • ADAM最適化アルゴリズムを用いてエンドツーエンドで学習され、適応的学習率が用いられ、λは複数のオーダーにわたり調整される。

実験結果

リサーチクエスチョン

  • RQ1推論時にニューラルネットワークがアーキテクチャを動的に適応させることで、キーワード検出における計算コストを削減しつつ、精度を損なわないか?
  • RQ2精度とコストのバランスをとる微分可能な目的関数を用いて、そのような適応的アーキテクチャ方策をエンドツーエンドで学習可能か?
  • RQ3異なる入力タイプ(例:サイレント、背景ノイズ、キーワード)に対して、モデルのアーキテクチャ選択はどのように変化するか?
  • RQ4実世界の音声ストリームにおいて、静的モデルと比較して、本手法がより優れた効率-精度トレードオフを達成できるか?
  • RQ5スーパーネットに学習可能なスキップ接続を組み込むことで、性能向上と同時に適応的プルーニングが可能になるか?

主な発見

  • SANASは、1フレームあたり3770万FLOPsでSpeech Commandsデータセットにおいて86.5%のワードマッチレートを達成し、ベースラインのcnn-trad-fpool3モデル(12460万FLOPsで81.7%)を上回った。
  • 最も強力な静的ベースライン(1億3730万FLOPs)と比較して、平均FLOPsを99.8%削減しながら、精度を82.9%から86.5%に向上させた。
  • トレーニングダイナミクス(図5)から、キーワードを含むフレームにはより多くの計算を割り当て、背景ノイズには少ない計算を割り当てることがモデルによって自動的に実現された。
  • 誤検出率5.8%、誤報率0.3%で正しく検出された割合が80.7%に達し、耐障害性と一貫性が示された。
  • 最良のSANASモデルは、1フレームあたり3770万FLOPsで86.5%のマッチレートを達成し、精度と効率の両面でベースラインモデルを上回った。
  • 明示的なコスト正則化を学習目的関数に組み込むことで、ショートカット接続の使用にもかかわらず過学習を回避できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。