QUICK REVIEW

[論文レビュー] Improving Transformer-based Speech Recognition Using Unsupervised Pre-training

Dongwei Jiang, Xiaoning Lei|arXiv (Cornell University)|Oct 22, 2019

Speech Recognition and Synthesis参考文献 30被引用数 103

ひとこと要約

本論文は、TransformerベースのASRモデルの無監督事前学習のためのMasked Predictive Coding (MPC) を導入し、HKUSTおよびAISHELL-1でCERをさまざまな事前学習データサイズと話し方スタイルで顕著に低減することを示している。

ABSTRACT

Speech recognition technologies are gaining enormous popularity in various industrial applications. However, building a good speech recognition system usually requires large amounts of transcribed data, which is expensive to collect. To tackle this problem, an unsupervised pre-training method called Masked Predictive Coding is proposed, which can be applied for unsupervised pre-training with Transformer based model. Experiments on HKUST show that using the same training data, we can achieve CER 23.3%, exceeding the best end-to-end model by over 0.2% absolute CER. With more pre-training data, we can further reduce the CER to 21.0%, or a 11.8% relative CER reduction over baseline.

研究の動機と目的

大量のラベル付きデータセットへの依存を減らす動機付けとして、豊富なラベルなし音声データを活用する。
BERT の MLM にインスパイアされた、Transformer に適合する無監督事前学習目的を提案する。
MPC が、事前学習データサイズと話し方スタイルが異なる普通話コーパス全体で下流の ASR 性能を改善することを示す。
微調整の性能に対する事前学習データサイズと話し方スタイルの影響を評価する。

提案手法

Transformer ベースの ASR 構成に対してエンコーダに Masked Predictive Coding を適用する。
入力フレームの 15% をマスクし、マスクされたフレームに対して80/10/10 の置換スキームで encoder 出力を L1 損失で再構築する。
事前学習では入力特徴量を 8x 縮小し 8kHz データとする。微調整時にもダウンサンプリングを適用する。
事前学習後、MPC 専用コンポーネントを除去し、教師あり微調整のために Transformer デコーダを追加する。
データサイズとスタイルの影響を調べるため、HKUST と AISHELL-1 に加え Open Mandarin および内部データセット（Didi Callcenter、Didi Dictation）を用いて実験を行う。
無監督の APC および教師付きアダプターと比較して、無監督事前学習からの利得を相対評価する。

実験結果

リサーチクエスチョン

RQ1ラベル付きデータが限られている場合に、MPC 事前学習は Transformer ベースの ASR 性能を改善するか？
RQ2事前学習データのサイズと話し方スタイルは、微調整後のCERにどのような影響を与えるか？
RQ3MPC は性能とデータ要件の点で APC および教師付き適応とどう比較されるか？

主な発見

Open Mandarin（約1500h）での事前学習を伴う MPC は、さまざまな設定で HKUST CER を 22.9–23.3% に、AISHELL-1 CER を 7.8–8.1% に低減し、強力なベースラインを上回る。
約 1500 時間の Open Mandarin データで、HKUST CER は 23.5% から 23.3% に低下し、より多くの事前学習データでさらなる改善が見られる。
Didi Callcenter の 5000h での事前学習は、8kHz ダウンサンプリングデータで HKUST CER を 21.0%、AISHELL-1 CER を 7.7–7.8% とし、話し方スタイルの一致とデータ量の多さによる強い効果を示す。
Didi Dictation または Didi Callcenter の 10000h を事前学習に用いると、ベースラインに対して HKUST で最大約 11.8% 相対的、AISHELL-1 で約 22.1% の CER 削減が得られる。
無監督 MPC アプローチは教師付き適応の性能に近づくことができるが、転写データが利用可能な場合は教師付き適応の方が依然として優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。