Skip to main content
QUICK REVIEW

[論文レビュー] Data Augmentation for Robust Keyword Spotting under Playback Interference

Anirudh Raju, Sankaran Panchapagesan|arXiv (Cornell University)|Aug 1, 2018
Speech and Audio Processing参考文献 18被引用数 31
ひとこと要約

本論文では、信号対インターフェアレンス比(SIR)を変化させながら、音楽やテレビ/映画音声を訓練データに人工的に混合することで、再生干渉下におけるキーワード検出(KWS)の耐障害性を向上させるデータ拡張戦略を提案する。この手法は実行時間の複雑さを増さずに、誤って拒否する割合(FRR)を顕著に低減し、AUCで47.6%の相対的低減を達成した。AEC処理に失敗した場合でさえ、ベースラインモデルを上回る性能を示した。

ABSTRACT

Accurate on-device keyword spotting (KWS) with low false accept and false reject rate is crucial to customer experience for far-field voice control of conversational agents. It is particularly challenging to maintain low false reject rate in real world conditions where there is (a) ambient noise from external sources such as TV, household appliances, or other speech that is not directed at the device (b) imperfect cancellation of the audio playback from the device, resulting in residual echo, after being processed by the Acoustic Echo Cancellation (AEC) system. In this paper, we propose a data augmentation strategy to improve keyword spotting performance under these challenging conditions. The training set audio is artificially corrupted by mixing in music and TV/movie audio, at different signal to interference ratios. Our results show that we get around 30-45% relative reduction in false reject rates, at a range of false alarm rates, under audio playback from such devices.

研究の動機と目的

  • 実際の再生干渉、特に音響エコーキャンセレーション(AEC)後の残存エコーを伴う状況下でのキーワード検出(KWS)性能を向上させること。
  • 遠方環境下でユーザーが音声再生(例:音楽、TTS)を遮断する場合に、低い誤って拒否率(FRR)を維持する課題に対処すること。
  • 追加の実行時間計算やメモリを必要とせず、デバイス内に統合可能なノイズ耐性の高いKWSシステムを開発すること。
  • 音楽および映画音声を用いたデータ拡張が、AECが効果を発揮しない場合を含む実世界の再生条件への一般化性を向上させるかどうかを評価すること。

提案手法

  • 信号対干渉比(SIR)を変化させながら、ランダムに切り取ったリバーブ処理を施した音楽および映画/音声クリップを、発話データに人工的に混合して訓練データを劣化させる。
  • SIR値を2つの範囲で一様分布からサンプリングする:[0, 40] dB および [-20, 40] dB であり、前者は再生あり/なしの両条件での性能をバランスさせるために選択された。
  • 拡張されたデータ上で深層ニューラルネットワーク(DNN)ベースの音響モデルを学習し、HMMベースのデコードを用いて、デバイス上でリアルタイムにキーワードを検出する。
  • DET曲線とAUCを評価指標として用い、再生あり/なしのテストセットにおけるモデル性能を比較する。
  • AEC処理に失敗した状況での耐障害性を評価するため、処理されていない音声データを用いてテストを行う。これは、AECが無効な実世界の状況をシミュレートする。
  • 標準的な特徴適応技術(fMMLRなど)をベースライン比較として用い、提案手法の有効性を検証する。

実験結果

リサーチクエスチョン

  • RQ1音楽および映画音声を用いたデータ拡張は、再生干渉下におけるKWSの耐障害性を向上させることができるか?
  • RQ2SIR値の範囲を広く(例:[-20, 40] dB)することで、再生テストセットでの性能が向上するが、クリーンデータでの性能劣化を伴うか?
  • RQ3AEC処理が失敗した場合や存在しない場合でも、提案された拡張戦略は有効であるか?
  • RQ4音源の選択(音楽対映画音声)が性能向上に与える影響は何か?
  • RQ5この拡張戦略は、推論複雑度を増さずに、エンドツーエンドの生音声KWSモデルに対しても効果的に適用可能か?

主な発見

  • 音楽音声を用いたデータ拡張により、クリーンベースラインモデルと比較して、再生テストセットにおけるAUCが47.6%の相対的低減を達成した。
  • 映画音声による劣化処理ではAUCが40.0%の相対的低減を示し、音楽ベースの拡張と比較して一貫したがわずかに低い改善効果を示した。
  • SIR範囲として[0, 40] dBが[-20, 40] dBよりも選択されたのは、再生あり/なしの両方の性能のバランスを最適化し、クリーンデータでの顕著な劣化を回避できたためである。
  • 本手法は、AECが無効または欠落している状況を含む実世界の使用状況下でも、誤って拒否率を低減させ、残存再生に対する耐障害性を示した。
  • 性能向上は、誤報率(FAR)の異なる運用ポイントにおいても一貫しており、検出しきい値の変動に対しても一般化性があることを示した。
  • 本手法は低実行時間複雑性を維持しており、推論時に追加のメモリやCPUオーバーヘッドを追加しなかったため、デバイス内に統合可能な適性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。