QUICK REVIEW

[論文レビュー] Invariant Representations for Noisy Speech Recognition

Dmitriy Serdyuk, Kartik Audhkhasi|arXiv (Cornell University)|Nov 27, 2016

Speech Recognition and Synthesis参考文献 16被引用数 65

ひとこと要約

本論文では、クリーン音声とノイズあり音声を区別できないように敵対的に訓練するドメイン分類器を用いることで、ノイズに不変な音声表現を学習する深層ニューラルネットワークアーキテクチャを提案する。主な音声認識モデルは高い分類精度を維持する。この手法は、特にトレーニング中に少数のノイズカテゴリしか見ない場合に、未観測のノイズタイプへの一般化性能を顕著に向上させ、Aurora-4ベンチマークにおいて標準的なマルチコンディショントレーニングを上回る性能を示す。

ABSTRACT

Modern automatic speech recognition (ASR) systems need to be robust under acoustic variability arising from environmental, speaker, channel, and recording conditions. Ensuring such robustness to variability is a challenge in modern day neural network-based ASR systems, especially when all types of variability are not seen during training. We attempt to address this problem by encouraging the neural network acoustic model to learn invariant feature representations. We use ideas from recent research on image generation using Generative Adversarial Networks and domain adaptation ideas extending adversarial gradient-based training. A recent work from Ganin et al. proposes to use adversarial training for image domain adaptation by using an intermediate representation from the main target classification network to deteriorate the domain classifier performance through a separate neural network. Our work focuses on investigating neural architectures which produce representations invariant to noise conditions for ASR. We evaluate the proposed architecture on the Aurora-4 task, a popular benchmark for noise robust ASR. We show that our method generalizes better than the standard multi-condition training especially when only a few noise categories are seen during training.

研究の動機と目的

音声認識（ASR）の性能を、ノイズ、話者、チャネルの変動といった未観測の音響条件下でも向上させること。
トレーニング中に存在しなかった新しいノイズタイプへの一般化の課題に取り組むこと。これは、ニューラルネットワークベースのASRにおいて一般的な制限要因である。
明示的なノイズに強い特徴や広範なデータオーグメンテーションに依存せずに、不変な表現を学習する手法を開発すること。
生成的敵対的ネットワーク（GANs）にインspiredされたドメイン適応技術を音声認識に応用すること。
本手法の有効性を、トレーニング時に見られるノイズタイプの数を変化させた標準的なAurora-4ベンチマークで評価すること。

提案手法

主な音声認識モデルとして6層の深層ニューラルネットワーク（DNN）を用い、4層目にノイズあり／クリーン音声の分類を予測するブランチを追加する。
ドメイン分類器ネットワークを、4層目の隠れ表現を用いてクリーン音声とノイズあり音声を区別するように訓練する。
学習目的は、音声分類損失、ドメイン分類損失、およびドメイン不変性を促進する勾配反転項の3つの損失項の組み合わせである。
エンコーダーの勾配に、Ganin & Lempitsky（2014）が提案した勾配反転層を適用することで、ドメイン分類器に対して表現がより不顕著になるようにする。
ミニバッチをクリーンフレームとノイズありフレームでバランスさせるように、モーメンタムを用いた確率的勾配降下法と学習率の段階的低下を用いてモデルを訓練する。
本手法は層ごとの事前学習を必要とせず、トレーニング時に見られるノイズタイプの数を変化させたAurora-4データセット上で評価される。

実験結果

リサーチクエスチョン

RQ1ドメイン不変性のための敵対的トレーニングは、未観測のノイズタイプへのASR一般化性能を向上させ得るか？
RQ2トレーニング時にノイズタイプのサブセットしか利用できない場合、本手法は標準的なマルチコンディショントレーニングと比べてどのように差をつけるか？
RQ3ノイズに不変な表現を学習することは、未観測のマイクやノイズ条件での性能向上に寄与するか？
RQ4なぜ音声認識タスクにおけるドメイン分類器は、画像認識タスクと比べて過学習（underfitting）に陥りやすいのか？
RQ5勾配反転に基づくドメイン適応は、最小限のアーキテクチャ変更でエンドツーエンドASRに効果的に適用可能か？

主な発見

すべての6種類のノイズタイプがトレーニングで見られる場合、提案手法の不変性トレーニングはAurora-4テストセットで12.62%のWERを達成し、ベースライン（12.60% WER）をわずかに上回る。
トレーニング時に1つのノイズタイプしか見ない場合、不変性モデルは未観測ノイズタイプで16.36% WERを達成したのに対し、ベースラインは22.47% WERであり、6.11%の絶対的改善が得られた。
5つのノイズタイプがトレーニングで見られる場合、不変性モデルは未観測ノイズで13.41% WERを達成したのに対し、ベースラインは19.33% WERであり、強力な一般化性能の向上が示された。
本手法は、特にトレーニングデータが少数のノイズタイプに限られる場合、未観測ノイズ条件におけるマルチコンディショントレーニングを常に上回る性能を示す。
事前学習モデルを用いても、不変性トレーニングアプローチはその優位性を維持し、すべてのノイズタイプを使用した場合に11.85% WER（ベースライン11.99% WER）を達成した。初期化に依存しない堅牢性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。