QUICK REVIEW

[論文レビュー] Multichannel End-to-end Speech Recognition

Tsubasa Ochiai, Shinji Watanabe|arXiv (Cornell University)|Mar 14, 2017

Speech and Audio Processing参考文献 31被引用数 46

ひとこと要約

本稿では、マスク推定とアテンションベースのリファレンスマイク選択を併用した微分可能ニューラルビームフォーマーを用いて、音声強調と自動音声認識を同時に最適化するマルチチャネルエンドツーエンド音声認識システムを提案する。清掃データを必要とせず、ノイジーなマルチチャネル入力と字幕に対してエンドツーエンドで学習することで、CHiME-4およびAMIベンチマークで最先端の性能を達成し、ノイジーな単一チャネルおよびビームフォーマーのベースラインを上回った。

ABSTRACT

The field of speech recognition is in the midst of a paradigm shift: end-to-end neural networks are challenging the dominance of hidden Markov models as a core technology. Using an attention mechanism in a recurrent encoder-decoder architecture solves the dynamic time alignment problem, allowing joint end-to-end training of the acoustic and language modeling components. In this paper we extend the end-to-end framework to encompass microphone array signal processing for noise suppression and speech enhancement within the acoustic encoding network. This allows the beamforming components to be optimized jointly within the recognition architecture to improve the end-to-end speech recognition objective. Experiments on the noisy speech benchmarks (CHiME-4 and AMI) show that our multichannel end-to-end system outperformed the attention-based baseline with input from a conventional adaptive beamformer.

研究の動機と目的

ノイジー環境において特に顕著な、従来のエンドツーエンドASRシステムが音声強調を統合しないという制限を解消すること。
ASRの前処理として用いられる従来のビームフォーマーが最適化目的の不一致により性能が最適でないという問題を克服すること。
清掃データが不要な状況下で、ノイジーなマルチチャネル入力と字幕のみを用いて、マルチチャネル音声強調とASRを共同で最適化すること。
再トレーニングや再設定を必要とせず、マイクアレイの構成（チャネル数や順序）に対して不変性を達成すること。

提案手法

時間周波数マスク推定を用いて音声強調を実現する微分可能ニューラルビームフォーマーを、アテンションベースのエンコーダデコーダASRフレームワークに統合する。
MVDRフィルタ係数を時間周波数ドメインで推定するマスク推定ネットワークを用い、エンドツーエンド学習プロセス内で微分可能な音声強調を実現する。
MVDRビームフォーミングのリファレンスマイク選択にアテンション機構を採用することで、任意のマイクアレイ構成に対して耐障害性を確保する。
語誤り率（WER）を目的関数として用い、ノイジーなマルチチャネル入力とテキスト字幕のみを用いて、システム全体をエンドツーエンドで学習する。
MVDR定式化を活用してリファレンスマイクでの音声像を推定することで、清掃データが不要な状況下でも効果的なノイズ抑制を実現する。
チャネルに依存しないマスク推定とアテンションベースのリファレンス選択を用いることで、チャネル順序および数に対して不変性を確保する。

実験結果

リサーチクエスチョン

RQ1ノイジーなマルチチャネル入力と字幕のみを用いて、音声強調と認識を共同で最適化するマルチチャネルエンドツーエンドASRシステムは可能か？
RQ2アテンションベースのビームフォーマーを用いたエンドツーエンド学習は、従来のビームフォーマーを前処理として用いた場合と比較して認識性能を向上させるか？
RQ3再トレーニングを必要とせず、任意のマイクアレイ構成（チャネル数および順序）に一般化可能か？
RQ4清掃データが存在しない状況が性能に悪影響を及ぼすか。また、ノイジーな字付きマルチチャネルデータのみで強力な性能を達成できるか？

主な発見

提案されたMASK_NET (ATT)モデルは、CHiME-4テストセットで語誤り率（WER）35.7％を達成し、ノイジーな単一チャネル入力（51.3％）およびビームフォーマー入力（45.9％）を用いたアテンションベースのベースラインを上回った。
AMIコーパスでは、ノイジーな単一チャネルベースラインおよびビームフォーマーベースラインの両方を上回る性能を示し、多様なノイジー環境下での有効性を確認した。
チャネル順序が変更されても（例：5_6_4_3_1 と 3_4_1_5_6）性能に劣化が認められず、チャネル順序に対して耐障害性を示した。
3つまたは4つのチャネルでも、単一チャネルのノイジーベースラインを上回る性能を示し、チャネル数の削減に対しても優れた一般化性能を示した。
スペクトログラムの可視化により、モデルがノイズを効果的に抑制し、従来のビームフォーマーと同様に周期的構造を回復していることが確認された。これは、ASR目的関数でのみ学習されたにもかかわらずの結果である。
清掃データが不要な状況下で優れた性能を達成し、単に字付きノイジーなマルチチャネル入力のみに依存している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。