QUICK REVIEW

[論文レビュー] Unsupervised pre-training for sequence to sequence speech recognition

Zhiyun Fan, Shiyu Zhou|arXiv (Cornell University)|Oct 28, 2019

Speech Recognition and Synthesis参考文献 23被引用数 20

ひとこと要約

本論文は、ペairedでない音声とテキストデータを用いて、2段階の教師なし事前学習手法をsequence-to-sequence音声認識モデルに提案する。まず、連続する音声特徴の断片をマスキングし、文脈から予測する目的関数を用いて、ラベルなし音声データ上でエンコーダーを事前学習する。次に、TTSシステムを用いて発話から合成された音声とテキストのペアを用いて、デコーダーを事前学習する。本手法は、AISHELL-1で相対的CERを78.8%、HKUSTで90.0%低減し、低リソースおよびクロスリンガル設定において一貫した性能向上を達成する。

ABSTRACT

This paper proposes a novel approach to pre-train encoder-decoder sequence-to-sequence (seq2seq) model with unpaired speech and transcripts respectively. Our pre-training method is divided into two stages, named acoustic pre-trianing and linguistic pre-training. In the acoustic pre-training stage, we use a large amount of speech to pre-train the encoder by predicting masked speech feature chunks with its context. In the linguistic pre-training stage, we generate synthesized speech from a large number of transcripts using a single-speaker text to speech (TTS) system, and use the synthesized paired data to pre-train decoder. This two-stage pre-training method integrates rich acoustic and linguistic knowledge into seq2seq model, which will benefit downstream automatic speech recognition (ASR) tasks. The unsupervised pre-training is finished on AISHELL-2 dataset and we apply the pre-trained model to multiple paired data ratios of AISHELL-1 and HKUST. We obtain relative character error rate reduction (CERR) from 38.24% to 7.88% on AISHELL-1 and from 12.00% to 1.20% on HKUST. Besides, we apply our pretrained model to a cross-lingual case with CALLHOME dataset. For all six languages in CALLHOME dataset, our pre-training method makes model outperform baseline consistently.

研究の動機と目的

エンドツーエンドの自動音声認識（ASR）における高価な教師あり音声-テキストペアの依存度を低減するため、ペアでない音声とテキストデータを活用すること。
ペアデータが不足する低リソースASR環境におけるモデル性能の向上を図ること。
ペアでないデータに対する教師なし事前学習が、ドメインや言語の不一致がある場合でも、下流のASR性能を向上させうるかを検討すること。
sequence-to-sequenceフレームワークにおける音声的および言語的事前学習段階の個別的寄与を調査すること。

提案手法

大規模なラベルなし音声データ上で、連続する音声断片をマスキングし、文脈から予測する目的関数を用いてエンコーダーを事前学習する。
単一話者向けのテキスト-to-音声（TTS）システムを用いて、大規模なトランスクリプトコーパスから合成音声を生成し、デコーダー事前学習用のペアデータを構築する。
合成されたペアデータを用いてデコーダーを事前学習し、音声の質が単調であっても、言語的構造とアライメントを学習する。
限定的なペアデータ上で微調整を実行することで、Transformerベースのエンコーダ-デコーダー構造を用いて、下流のASRタスクに2段階事前学習モデルを適用する。
アブレーションスタディを用いて、音声的事前学習（音声上で）と言語的事前学習（TTSで生成された音声上で）の寄与を分離する。
ドメイン内、ドメイン外、およびクロスリンガル設定での評価を通じて、モデルの頑健性と汎化性を評価する。

実験結果

リサーチクエスチョン

RQ1ペアでない音声とテキストデータに対する教師なし事前学習が、ペアデータが限られる状況でsequence-to-sequence ASR性能を向上させうるか？
RQ2マスキングされた音声特徴を用いたエンコーダーの事前学習が、下流のASR精度を向上させるか？
RQ3音声の質が単調であるにもかかわらず、トランスクリプトから生成されたTTS音声を用いたデコーダーの事前学習が、モデル性能を向上させるか？
RQ4音声的および言語的事前学習段階の有効性は、ドメイン内ペアデータ量が異なる条件下でどのように比較されるか？
RQ5事前学習モデルはドメイン外またはクロスリンガルASRタスクに汎化可能か？

主な発見

提案手法の2段階教師なし事前学習により、AISHELL-1では相対的文字誤り率（CERR）が78.8%低減され、38.24%から7.88%に低下した。
HKUSTデータセットでは、CERRが90.0%低減され、12.00%から1.20%に低下し、低リソース設定での優れた性能を示した。
アブレーションスタディの結果、音声的および言語的事前学習の両方が性能向上に寄与しており、特にペアデータが少ない状況（例：10時間）では言語的事前学習がより効果的であった。
事前学習データとドメイン内データの間にドメイン不一致がある場合、音声的事前学習が言語的事前学習よりも大きな利益をもたらし、特にデータ量が多い状況で顕著であった。
本手法はクロスリンガル設定に対しても効果的に汎化可能である：CALLHOMEデータセットの6言語すべてにおいて、事前学習済み重みで初期化されたモデルは収束し、ランダム初期化を上回る性能を示した。
事前学習モデルはランダム初期化のベースラインよりも収束が早く、特にドメイン内データが限られる状況では、教師あり事前学習のベースラインに近い性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。