Skip to main content
QUICK REVIEW

[論文レビュー] Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Shiyu Zhou, Linhao Dong|arXiv (Cornell University)|Apr 28, 2018
Speech Recognition and Synthesis参考文献 23被引用数 28
ひとこと要約

本論文は、中国語の自動音声認識(ASR)における変換器アーキテクチャを用いた音節ベースのシーケンス・ツー・シーケンス音声認識システムを提案する。文脈に依存しない音素(CI-phoneme)ではなく音節をモデル化することで、優れた性能が得られ、文字誤り率(CER)が28.77%に達し、最先端のモデルと同等の性能を示し、CI-phonemeベースのベースラインより2ポイント以上優れている。

ABSTRACT

Sequence-to-sequence attention-based models have recently shown very promising results on automatic speech recognition (ASR) tasks, which integrate an acoustic, pronunciation and language model into a single neural network. In these models, the Transformer, a new sequence-to-sequence attention-based model relying entirely on self-attention without using RNNs or convolutions, achieves a new single-model state-of-the-art BLEU on neural machine translation (NMT) tasks. Since the outstanding performance of the Transformer, we extend it to speech and concentrate on it as the basic architecture of sequence-to-sequence attention-based model on Mandarin Chinese ASR tasks. Furthermore, we investigate a comparison between syllable based model and context-independent phoneme (CI-phoneme) based model with the Transformer in Mandarin Chinese. Additionally, a greedy cascading decoder with the Transformer is proposed for mapping CI-phoneme sequences and syllable sequences into word sequences. Experiments on HKUST datasets demonstrate that syllable based model with the Transformer performs better than CI-phoneme based counterpart, and achieves a character error rate (CER) of \emph{$28.77\%$}, which is competitive to the state-of-the-art CER of $28.0\%$ by the joint CTC-attention based encoder-decoder network.

研究の動機と目的

  • 変換器アーキテクチャが中国語自動音声認識(ASR)において有効であるかを評価すること。
  • シーケンス・ツー・シーケンスのアテンションベースASRにおいて、音節ベースと文脈に依存しない音素(CI-phoneme)モデル化単位の性能を比較すること。
  • 部分語(音節またはCI-phoneme)から語系列へのマッピングを実行するグリーディ・カスケーディングデコーダーの開発と検証すること。
  • データ拡張(速度変更)とフレームレートがモデル性能に与える影響を調査すること。

提案手法

  • 再帰的構造や畳み込みを一切使用せず、自己注意機構に依存する変換器エンコーダ・デコーダアーキテクチャを採用する。
  • 中国語において固定の語彙を有し、未知語のリスクが低いことから、音節を音声モデリングの部分語単位として使用する。
  • 音声特徴を部分語系列にマッピングする音節ベースまたはCI-phonemeベースの変換器モデルを学習する。
  • 最初に部分語系列を予測し、その後でそれらを語系列にマッピングすることで、後方確率P(W|X)を最大化するグリーディ・カスケーディングデコーダを実装する。
  • 訓練データの拡張として、音声を0.9倍および1.1倍にスケーリングする速度変更(speed perturbation)を適用し、モデルのロバスト性を向上させる。
  • 入力の時間的分解能に影響を受けるかどうかを評価するため、異なるフレームレート(30ms、50ms、70ms)で性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1音節ベースのモデリングを用いた場合、変換器アーキテクチャが中国語ASRで優れた性能を発揮するか?
  • RQ2シーケンス・ツー・シーケンスの変換器ASRにおいて、音節ベースのモデリングはCI-phonemeベースのモデリングを上回るか?
  • RQ3グリーディ・カスケーディングデコーダーは、部分語系列(音節またはCI-phoneme)を効果的に語系列に変換し、CERを改善できるか?
  • RQ4速度変更によるデータ拡張は、音節ベースおよびCI-phonemeベースのモデルの性能にどのように影響するか?
  • RQ5フレームレートは、中国語における変換器ベースのASRモデルの性能にどのように影響するか?

主な発見

  • 音節ベースの変換器モデルは、文字誤り率(CER)28.77%を達成し、最先端のモデルと同等の性能を示している。
  • 同じデータセット上で、音節ベースのモデルはCI-phonemeベースのモデル(CER 30.65%)を2ポイント以上上回っている。
  • 速度変更によるデータ拡張は、音節ベースのモデルの性能を顕著に向上させ、CERを29.87%から28.77%に低下させたが、CI-phonemeモデルにはわずかに悪影響を与えた。
  • 両モデルの性能はフレームレートの増加に伴い低下し、50msから70msに移行する際には急激に低下した。これは、30–50msのフレームレートで最適な性能が得られることを示している。
  • グリーディ・カスケーディングデコーダーは、部分語から語へのマッピングを活用することで、語レベルの認識を効果的に向上させ、全体の後方確率推定を改善した。
  • 変換器モデルは中国語ASRにおいて優れた性能を示し、低リソース言語および音節ベース言語におけるシーケンス・ツー・シーケンスモデリングに適していることが裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。