[論文レビュー] Improving Generalization of Transformer for Speech Recognition with Parallel Schedule Sampling and Relative Positional Embedding
本稿では、自動音声認識におけるTransformerの汎用性を向上させるために、並列スケジュールサンプリング(PSS)と相対的位置埋め込み(RPE)を提案する。PSSは、露呈バイアスを軽減するための効率的で並列的な学習段階でのスケジュールサンプリングを可能にする。一方RPEは、長時間系列における注意の混乱を軽減するため、局所的で相対的な系列位置のモデリングを強化する。両者の組み合わせにより、10,000時間分の中国語自動音声認識タスクにおいて、短い発話では相対的にCERが7%低下し、長い発話では70%の向上が達成された。
Transformer has shown promising results in many sequence to sequence transformation tasks recently. It utilizes a number of feed-forward self-attention layers to replace the recurrent neural networks (RNN) in attention-based encoder decoder (AED) architecture. Self-attention layer learns temporal dependence by incorporating sinusoidal positional embedding of tokens in a sequence for parallel computing. Quicker iteration speed in training than sequential operation of RNN can be obtained. Deeper layers of the transformer also make it perform better than RNN-based AED. However, this parallelization ability is lost when applying scheduled sampling training. Self-attention with sinusoidal positional embedding may cause performance degradations for longer sequences that have similar acoustic or semantic information at different positions as well. To address these problems, we propose to use parallel scheduled sampling (PSS) and relative positional embedding (RPE) to help the transformer generalize to unseen data. Our proposed methods achieve a 7% relative improvement for short utterances and a 70% relative gain for long utterances on a 10,000-hour Mandarin ASR task.
研究の動機と目的
- Transformerベースのエンドツーエンド音声認識における汎用性のギャップ、特に長時間および未学習長さの発話を対象に解消すること。
- 非自己回帰的かつ並列デコード型のTransformerにおけるスケジュールサンプリングの非効率性を克服すること。
- 長時間系列における類似した音声的または意味的コンテンツが原因で生じる注意の混乱と削除誤り(末尾削除および内部削除)を軽減すること。
- 学習済み系列長を越えて汎用性を向上させるために、相対的で局所的な位置関係をモデリングすること。
- PSSとRPEを組み合わせて、短いおよび長いテストセットの両方におけるモデルの頑健性と精度を向上させること。
提案手法
- 推論時と同様の割合で、学習段階で正解ラベルとモデルが生成した出力を混合する、並列スケジュールサンプリング(PSS)を提案。これにより、実際のデコード動作を模擬する。
- デコーダー入力に注入する際、KaldiベースのハイブリッドモデルまたはTransformer自体を用いて、正解ラベルと混合するための候補出力を生成する。
- 絶対的位置埋め込みを置き換えたり補完したりする目的で、相対的位置埋め込み(RPE)を導入。これにより、局所的コンテキスト窓内での相対的位置関係を学習可能にする。
- RPEをエンコーダーおよびデコーダーのマルチヘッドアテンション層に適用し、固定された相対範囲(例:k=10)に制限することで、局所化の向上と混乱の低減を図る。
- 正弦波による絶対的位置埋め込み(APE)との比較として、学習可能なトークンIDベースの位置埋め込みをベースラインとして採用。これには、未学習の位置への一般化能力の制限が見られる。
- PSSとRPEを共同学習設定で組み合わせ、推論動作に近い反復的デコードを学習段階で実施することで、推論行動とより一致させる。
実験結果
リサーチクエスチョン
- RQ1自己回帰的でない並列デコード型Transformerに、学習速度を損なわずかつ逐次的ボトルネックを引き起こさずに、スケジュールサンプリングを効率的に適用できるか?
- RQ2相対的位置埋め込みは、音声認識における長時間・未学習長発話へのTransformerの汎用性を向上させるか?
- RQ3PSSおよびRPEは、長時間発話認識における末尾削除および内部削除をどの程度低減するか?
- RQ4RPEは、長時間系列における類似した音声的または意味的セグメントを処理する際、絶対的位置埋め込みと比較してどのように優れているか?
- RQ5PSSとRPEの併用効果は、短いおよび長い発話分布の両方におけるモデルの汎用性向上にどのように寄与するか?
主な発見
- 提案されたPSS手法により、教師強制学習と比較して、短い発話ではCERが7.2%相対的に低下(8.88%から8.24%に)。
- PSSとRPEの組み合わせにより、長い発話のCERは42.41%から12.73%に低下し、相対的に70%の改善が達成された。
- RPE単体でも、エンコーダーでk=10を用いることで、長い発話のCERは42.41%(ベースライン)から29.87%に低下し、エンコーダーおよびデコーダーにRPEを適用するとさらに12.73%にまで低下した。
- RPEの導入により、誤差解析および例のデコード比較から、末尾削除および内部削除の両方が顕著に減少した。
- RPEは、注意デコードにおける自己ループ問題を緩和し、誤った繰り返しの訂正が行われることを、定性的な例で確認した。
- 最良のモデル(E8+E3)は、短い発話でCERが8.9%、長い発話で12.89%を達成し、系列長にわたる強力な汎用性を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。