[論文レビュー] Latent Sequence Decompositions
この論文は、トレーニング中に入力および出力の両方のシーケンスに依存する可変長トークン分解を学習するフレームワーク、Latent Sequence Decompositions (LSD) を導入する。LSD は Wall Street Journal ASR で 12.9% の WER を達成し、14.8% の文字レベルベースラインを上回り、深層 CNN エンコーダーと組み合わせると 9.6% の WER を達成し、エンド・ツー・エンドで入力に情報されたシーケンス分解学習の利点を示している。
We present the Latent Sequence Decompositions (LSD) framework. LSD decomposes sequences with variable lengthed output units as a function of both the input sequence and the output sequence. We present a training algorithm which samples valid extensions and an approximate decoding algorithm. We experiment with the Wall Street Journal speech recognition task. Our LSD model achieves 12.9% WER compared to a character baseline of 14.8% WER. When combined with a convolutional network on the encoder, we achieve 9.6% WER.
研究の動機と目的
- 固定で決定的なトークン分解を採用するシーケンス・トゥ・シーケンスモデルの限界、すなわちしばしば最適でなく、入力コンテキストに依存しない点を是正すること。
- 単一の事前に定義されたセグメンテーションに依存するのではなく、潜在的なシーケンス分解の分布を学習できるようにすること。
- 入力音声と出力テキストの両方に適応する可変長トークン(例:ワードピece)を許容することで、自動音声認識性能を向上させること。
- 有効な分解を段階的にサンプリングし、トレーニング中にそれらをマージナライズするトレーニングおよびデコード手法を開発すること。
- 入力と出力を同時に学習することで、より良い一般化性能と低誤差率が得られることを示すこと。
提案手法
- LSD は、出力シーケンスを、文字の n-gram からなる学習済み辞書からの可変長トークンへの潜在的分解としてモデル化する。
- トレーニング中、モデルは左から右へと有効なトークン拡張をバランスさせながら、ε-greedy 策略を用いて分解を段階的にサンプリングする。
- トレーニング中に、与えられた出力シーケンスのすべての可能な分解をマージナライズし、勾配をバックプロパゲートできる微分可能近似を用いる。
- テスト時、ビームサーチを用いて最も確率の高い出力シーケンスおよびその対応する分解をデコードする。
- このフレームワークはシーケンス・トゥ・シーケンスモデルと統合可能であり、残差接続およびバッチ正規化を備えた CNN などの深層ニューラルネットワークエンコーダーと組み合わせられる。
- トレーニング目的関数は、潜在的分解のサンプリングを用いた交差エントロピー損失であり、一般化性能を向上させるために重みノイズが適用される。
実験結果
リサーチクエスチョン
- RQ1固定分解に依存するのではなく、分解の分布を学習することで、自動音声認識におけるシーケンス・トゥ・シーケンスモデリングが向上するか?
- RQ2分解を出力のみではなく、入力および出力の両方に依存させることで、出力にのみ依存する分解よりも性能が向上するか?
- RQ3ワードピece などの可変長トークンを、ヒューリスティクスや外部モデルによる事前定義ではなく、エンド・ツー・エンドでモデル内で学習できるか?
- RQ4標準的な ASR ベンチマークにおいて、LSD は固定トークンベースライン(例:文字レベルや語彙レベル)と比較して WER でどのように差をつけるか?
- RQ5深層 CNN などの強力なエンコーダー・アーキテクチャと LSD を効果的に組み合わせて、さらなる性能向上が達成できるか?
主な発見
- LSD モデルは Wall Street Journal テストセットで 12.9% の WER を達成し、14.8% の文字レベル seq2seq ベースラインに対して 12.7% の相対的改善を示している。
- 深層畳み込みニューラルネットワークエンコーダーと組み合わせた場合、LSD モデルは 9.6% の WER を達成し、同じベースラインに対して 35.1% の相対的改善を示している。
- モデルは同じ出力シーケンスに対して複数の有効な分解を学習する。例えば、'cat' を 'c','a','t' または 'ca','t' または 'cat' として表現する。
- 潜在的分解学習の使用により、語彙レベルモデルの OOV 問題を回避し、文字レベルモデルの長いシーケンス長の問題を軽減できる。
- CTC や HMM ベースのモデルとは異なり、マルコフ仮定に依存せず、マルチモーダルな出力分布を効果的に学習できる。
- 結果から、入力に情報された分解学習が、エンド・ツー・エンド ASR におけるより効率的かつ正確なシーケンスモデリングをもたらすことが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。