QUICK REVIEW

[論文レビュー] Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Shiyu Zhou, Linhao Dong|arXiv (Cornell University)|Apr 28, 2018

Speech Recognition and Synthesis参考文献 23被引用数 28

ひとこと要約

本論文は、中国語の自動音声認識（ASR）における変換器アーキテクチャを用いた音節ベースのシーケンス・ツー・シーケンス音声認識システムを提案する。文脈に依存しない音素（CI-phoneme）ではなく音節をモデル化することで、優れた性能が得られ、文字誤り率（CER）が28.77%に達し、最先端のモデルと同等の性能を示し、CI-phonemeベースのベースラインより2ポイント以上優れている。

ABSTRACT

Sequence-to-sequence attention-based models have recently shown very promising results on automatic speech recognition (ASR) tasks, which integrate an acoustic, pronunciation and language model into a single neural network. In these models, the Transformer, a new sequence-to-sequence attention-based model relying entirely on self-attention without using RNNs or convolutions, achieves a new single-model state-of-the-art BLEU on neural machine translation (NMT) tasks. Since the outstanding performance of the Transformer, we extend it to speech and concentrate on it as the basic architecture of sequence-to-sequence attention-based model on Mandarin Chinese ASR tasks. Furthermore, we investigate a comparison between syllable based model and context-independent phoneme (CI-phoneme) based model with the Transformer in Mandarin Chinese. Additionally, a greedy cascading decoder with the Transformer is proposed for mapping CI-phoneme sequences and syllable sequences into word sequences. Experiments on HKUST datasets demonstrate that syllable based model with the Transformer performs better than CI-phoneme based counterpart, and achieves a character error rate (CER) of \emph{$28.77\%$}, which is competitive to the state-of-the-art CER of $28.0\%$ by the joint CTC-attention based encoder-decoder network.

研究の動機と目的

変換器アーキテクチャが中国語自動音声認識（ASR）において有効であるかを評価すること。
シーケンス・ツー・シーケンスのアテンションベースASRにおいて、音節ベースと文脈に依存しない音素（CI-phoneme）モデル化単位の性能を比較すること。
部分語（音節またはCI-phoneme）から語系列へのマッピングを実行するグリーディ・カスケーディングデコーダーの開発と検証すること。
データ拡張（速度変更）とフレームレートがモデル性能に与える影響を調査すること。

提案手法

再帰的構造や畳み込みを一切使用せず、自己注意機構に依存する変換器エンコーダ・デコーダアーキテクチャを採用する。
中国語において固定の語彙を有し、未知語のリスクが低いことから、音節を音声モデリングの部分語単位として使用する。
音声特徴を部分語系列にマッピングする音節ベースまたはCI-phonemeベースの変換器モデルを学習する。
最初に部分語系列を予測し、その後でそれらを語系列にマッピングすることで、後方確率P(W|X)を最大化するグリーディ・カスケーディングデコーダを実装する。
訓練データの拡張として、音声を0.9倍および1.1倍にスケーリングする速度変更（speed perturbation）を適用し、モデルのロバスト性を向上させる。
入力の時間的分解能に影響を受けるかどうかを評価するため、異なるフレームレート（30ms、50ms、70ms）で性能を評価する。

実験結果

リサーチクエスチョン

RQ1音節ベースのモデリングを用いた場合、変換器アーキテクチャが中国語ASRで優れた性能を発揮するか？
RQ2シーケンス・ツー・シーケンスの変換器ASRにおいて、音節ベースのモデリングはCI-phonemeベースのモデリングを上回るか？
RQ3グリーディ・カスケーディングデコーダーは、部分語系列（音節またはCI-phoneme）を効果的に語系列に変換し、CERを改善できるか？
RQ4速度変更によるデータ拡張は、音節ベースおよびCI-phonemeベースのモデルの性能にどのように影響するか？
RQ5フレームレートは、中国語における変換器ベースのASRモデルの性能にどのように影響するか？

主な発見

音節ベースの変換器モデルは、文字誤り率（CER）28.77%を達成し、最先端のモデルと同等の性能を示している。
同じデータセット上で、音節ベースのモデルはCI-phonemeベースのモデル（CER 30.65%）を2ポイント以上上回っている。
速度変更によるデータ拡張は、音節ベースのモデルの性能を顕著に向上させ、CERを29.87%から28.77%に低下させたが、CI-phonemeモデルにはわずかに悪影響を与えた。
両モデルの性能はフレームレートの増加に伴い低下し、50msから70msに移行する際には急激に低下した。これは、30–50msのフレームレートで最適な性能が得られることを示している。
グリーディ・カスケーディングデコーダーは、部分語から語へのマッピングを活用することで、語レベルの認識を効果的に向上させ、全体の後方確率推定を改善した。
変換器モデルは中国語ASRにおいて優れた性能を示し、低リソース言語および音節ベース言語におけるシーケンス・ツー・シーケンスモデリングに適していることが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。