Skip to main content
QUICK REVIEW

[論文レビュー] Semantic Mask for Transformer based End-to-End Speech Recognition

Chengyi Wang, Yu Wu|arXiv (Cornell University)|Dec 6, 2019
Speech Recognition and Synthesis参考文献 22被引用数 24
ひとこと要約

本論文では、Transformerベースのエンドツーエンド音声認識における意味的マスク正則化技術を提案する。訓練中に個々の出力トークン(例:単語やワードピece)に対応する音声セグメントをマスクすることで、言語モデルの性能と一般化能力を向上させる。この手法は、SpecAugmentと組み合わせることで、Librispeech 960hおよびTED-LIUM2で最先端のWERを達成し、ベースラインE2Eモデル比で相対的に最大10%の性能向上を実現した。

ABSTRACT

Attention-based encoder-decoder model has achieved impressive results for both automatic speech recognition (ASR) and text-to-speech (TTS) tasks. This approach takes advantage of the memorization capacity of neural networks to learn the mapping from the input sequence to the output sequence from scratch, without the assumption of prior knowledge such as the alignments. However, this model is prone to overfitting, especially when the amount of training data is limited. Inspired by SpecAugment and BERT, in this paper, we propose a semantic mask based regularization for training such kind of end-to-end (E2E) model. The idea is to mask the input features corresponding to a particular output token, e.g., a word or a word-piece, in order to encourage the model to fill the token based on the contextual information. While this approach is applicable to the encoder-decoder framework with any type of neural network architecture, we study the transformer-based model for ASR in this work. We perform experiments on Librispeech 960h and TedLium2 data sets, and achieve the state-of-the-art performance on the test set in the scope of E2E models.

研究の動機と目的

  • 注意機構に基づくエンドツーエンドASRモデルにおける言語モデルの能力が限定的である問題に取り組むこと、特に低データ量またはノイズの多い環境下での課題に焦点を当てる。
  • 外部言語モデルに依存せずに、モデルの一般化能力と音声歪みに対するロバスト性を向上させること。
  • 文脈に基づいた再構成を促進する構造的でトークンレベルのマスキング戦略を開発し、BERTに類似したアプローチを音響空間に適用すること。
  • 意味的マスクがランダムマスキング(例:SpecAugment)を上回ること、およびLibrispeechやTED-LIUM2のような多様なデータセットで性能向上を示すことを実証すること。

提案手法

  • 各発話の単語レベルのタイミング情報を得るため、モンタリオフォースドアラインヤーを用いて強制アラインメントを実施する。
  • 訓練中に15%のトークンがランダムに選択され、それに対応する音声セグメントが、全発話の平均値に置き換えられてマスクされる。
  • マスキングはトークンレベルで実施され、単語やワードピeceに対応する特徴パッチ全体がマスクされるため、時間・周波数のランダムマスキングよりも構造的である。
  • 正則化効果を高めるために、既存のSpecAugment技術(時間歪み、周波数マスキング、時間マスキング)と組み合わせて適用する。
  • 訓練には、自己注意ブロックの前段に深さのあるCNNを導入し、CTC/注意機構の両方の損失関数を用いる。
  • 意味的マスクは訓練時および推論時にも適用され、モデルは文脈的情報を用いてマスクされたトークンを再構成する必要がある。
Figure 1: An example of semantic mask
Figure 1: An example of semantic mask

実験結果

リサーチクエスチョン

  • RQ1音響空間におけるトークンレベルのマスキングは、エンドツーエンドASRモデルの言語モデル能力を向上させることができるか?
  • RQ2ランダムマスキング(例:SpecAugment)と比較して、意味的マスキングはWER低減とモデル一般化能力向上にどのように寄与するか?
  • RQ3ノイズが多いかドメイン外のテストセット(例:Librispeech test-other や TED-LIUM2)では、意味的マスキングがより大きな効果を発揮するか?
  • RQ4意味的マスキングは、SpecAugmentや他のデータ拡張技術と効果的に組み合わせられるか?
  • RQ5外部言語モデルが存在しない状況では、意味的マスキングがモデル性能にどのように寄与するか?

主な発見

  • Librispeech 960hでは、意味的マスクを適用したモデルが、テストクリーンで3.32%、テストオーサーで10.20%のWERを達成し、ベースラインE2Eモデル比で相対的に10%の向上を示した。
  • 意味的マスキングとSpecAugmentの組み合わせは、SpecAugment単体と比較して、テストクリーンで0.32、テストオーサーで0.25のWER低減を達成した。
  • TED-LIUM2では、ベースライン比で相対的に4.5%のWER低減を達成し、この手法が小規模でノイズの多いデータセットに対しても有効であることを確認した。
  • Librispeechテストクリーンでは、報告済みの最良のE2E ASRシステムを上回り、E2Eオンリーモードで最先端のパフォーマンスを達成した。
  • 外部言語モデル統合の有無にかかわらず、意味的マスキングを適用したモデルでは、言語モデルの内生的強化が顕著に顕在化し、性能差が顕著に拡大した。
  • アブレーションスタディの結果、語彙レベルのマスキングが時間レベルのマスキングよりも一貫して優れており、両者の戦略を組み合わせた場合が最良の結果をもたらした。
Figure 2: CNN layer architecture.
Figure 2: CNN layer architecture.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。