[論文レビュー] Multilingual End-to-End Speech Recognition with A Single Transformer on Low-Resource Languages
本論文は、サブワード(via BPE)を用いた単一の多言語ASR Transformerが六つの低リソース言語を認識できること、言語情報を末尾に注入するか文頭トークンとして注入することでWERを低減させ、既知言語条件下ではB2が最良の結果を示すことを示している。
Sequence-to-sequence attention-based models integrate an acoustic, pronunciation and language model into a single neural network, which make them very suitable for multilingual automatic speech recognition (ASR). In this paper, we are concerned with multilingual speech recognition on low-resource languages by a single Transformer, one of sequence-to-sequence attention-based models. Sub-words are employed as the multilingual modeling unit without using any pronunciation lexicon. First, we show that a single multilingual ASR Transformer performs well on low-resource languages despite of some language confusion. We then look at incorporating language information into the model by inserting the language symbol at the beginning or at the end of the original sub-words sequence under the condition of language information being known during training. Experiments on CALLHOME datasets demonstrate that the multilingual ASR Transformer with the language symbol at the end performs better and can obtain relatively 10.5\% average word error rate (WER) reduction compared to SHL-MLSTM with residual learning. We go on to show that, assuming the language information being known during training and testing, about relatively 12.4\% average WER reduction can be observed compared to SHL-MLSTM with residual learning through giving the language symbol as the sentence start token.
研究の動機と目的
- 低リソース言語向けの単一のTransformerを用いた多言語エンドツーエンドASRを調査する。
- BPEによるサブワード単位が発音辞書の必要性を排除できるか評価する。
- デコoding中の言語混乱を減らすために、言語情報を注入する方法を検討する。
提案手法
- 多頭注意機構と位置ごとの前方伝播層を備えた単一のASR Transformerを使用する。
- 多言語モデリング単位としてBPEのサブワードを採用し、言語間で共有する。
- 語彙に言語トークンを追加し、挿入点を比較する(開始時 vs 終了時)と、テスト時の言語使用(既知言語)を比較する。
- 限られたデータに対処するために高リソース言語モデルから多言語訓練を初期化し、softmaxを言語特異的出力に置換する。
- サブワードの語彙サイズとサブワードあたりのデータのバランスを取るために、異なるBPEマージ数(α)を試す。
- 安定性のために最後の20個のモデルチェックポイントを平均化する。
実験結果
リサーチクエスチョン
- RQ1単一の多言語Transformerは pronunciation lexiconsなしで低リソース言語で競争力のあるWERを達成できるか。
- RQ2言語情報を文頭/文末トークンとして埋め込む、あるいは言語が既知の場合開始トークンとして埋め込むことが、言語間のWERにどのような影響を与えるか。
- RQ3BPEマージ数(α)はモノリンガル対多言語設定で性能にどのように影響するか。
- RQ4訓練時(およびテスト時)に言語情報を使用することで、多言語エンドツーエンドASRにおける言語混乱を減らせるか。
主な発見
- 言語シンボルを末尾に付与した単一多言語ASR Transformer(Transformer-E)は、SHL-MLSTM-RESIDUALに対して最大10.5%の相対的平均WER削減を達成。
- 訓練時とテスト時の両方で言語情報が既知の場合、文頭トークンとしての言語シンボルを使用する(Transformer-B2)は、SHL-MLSTM-RESIDUALに比べて約12.4%の相対的平均WER削減をもたらす。
- 共有サブワードを用いた多言語訓練は、モノリンガルモデルより平均的な性能を一般に向上させる。ただし、言語 conditioningがないと言語混乱は依然課題。
- 最良の多言語設定(B2)は、いくつかの言語でWERを大幅に低減し、言語手がかりを与えればモデルが正しい言語へデコードできる能力を示す。
- 言語間では、末尾の言語条件付けを用いた多言語Transformerは、開始時にトークンを置くバージョンやテスト言語の知識を使用しないバージョンを一貫して上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。