QUICK REVIEW

[論文レビュー] Latent Sequence Decompositions

William Chan, Yu Zhang|arXiv (Cornell University)|Oct 10, 2016

Speech Recognition and Synthesis被引用数 37

ひとこと要約

この論文は、トレーニング中に入力および出力の両方のシーケンスに依存する可変長トークン分解を学習するフレームワーク、Latent Sequence Decompositions (LSD) を導入する。LSD は Wall Street Journal ASR で 12.9% の WER を達成し、14.8% の文字レベルベースラインを上回り、深層 CNN エンコーダーと組み合わせると 9.6% の WER を達成し、エンド・ツー・エンドで入力に情報されたシーケンス分解学習の利点を示している。

ABSTRACT

We present the Latent Sequence Decompositions (LSD) framework. LSD decomposes sequences with variable lengthed output units as a function of both the input sequence and the output sequence. We present a training algorithm which samples valid extensions and an approximate decoding algorithm. We experiment with the Wall Street Journal speech recognition task. Our LSD model achieves 12.9% WER compared to a character baseline of 14.8% WER. When combined with a convolutional network on the encoder, we achieve 9.6% WER.

研究の動機と目的

固定で決定的なトークン分解を採用するシーケンス・トゥ・シーケンスモデルの限界、すなわちしばしば最適でなく、入力コンテキストに依存しない点を是正すること。
単一の事前に定義されたセグメンテーションに依存するのではなく、潜在的なシーケンス分解の分布を学習できるようにすること。
入力音声と出力テキストの両方に適応する可変長トークン（例：ワードピece）を許容することで、自動音声認識性能を向上させること。
有効な分解を段階的にサンプリングし、トレーニング中にそれらをマージナライズするトレーニングおよびデコード手法を開発すること。
入力と出力を同時に学習することで、より良い一般化性能と低誤差率が得られることを示すこと。

提案手法

LSD は、出力シーケンスを、文字の n-gram からなる学習済み辞書からの可変長トークンへの潜在的分解としてモデル化する。
トレーニング中、モデルは左から右へと有効なトークン拡張をバランスさせながら、ε-greedy 策略を用いて分解を段階的にサンプリングする。
トレーニング中に、与えられた出力シーケンスのすべての可能な分解をマージナライズし、勾配をバックプロパゲートできる微分可能近似を用いる。
テスト時、ビームサーチを用いて最も確率の高い出力シーケンスおよびその対応する分解をデコードする。
このフレームワークはシーケンス・トゥ・シーケンスモデルと統合可能であり、残差接続およびバッチ正規化を備えた CNN などの深層ニューラルネットワークエンコーダーと組み合わせられる。
トレーニング目的関数は、潜在的分解のサンプリングを用いた交差エントロピー損失であり、一般化性能を向上させるために重みノイズが適用される。

実験結果

リサーチクエスチョン

RQ1固定分解に依存するのではなく、分解の分布を学習することで、自動音声認識におけるシーケンス・トゥ・シーケンスモデリングが向上するか？
RQ2分解を出力のみではなく、入力および出力の両方に依存させることで、出力にのみ依存する分解よりも性能が向上するか？
RQ3ワードピece などの可変長トークンを、ヒューリスティクスや外部モデルによる事前定義ではなく、エンド・ツー・エンドでモデル内で学習できるか？
RQ4標準的な ASR ベンチマークにおいて、LSD は固定トークンベースライン（例：文字レベルや語彙レベル）と比較して WER でどのように差をつけるか？
RQ5深層 CNN などの強力なエンコーダー・アーキテクチャと LSD を効果的に組み合わせて、さらなる性能向上が達成できるか？

主な発見

LSD モデルは Wall Street Journal テストセットで 12.9% の WER を達成し、14.8% の文字レベル seq2seq ベースラインに対して 12.7% の相対的改善を示している。
深層畳み込みニューラルネットワークエンコーダーと組み合わせた場合、LSD モデルは 9.6% の WER を達成し、同じベースラインに対して 35.1% の相対的改善を示している。
モデルは同じ出力シーケンスに対して複数の有効な分解を学習する。例えば、'cat' を 'c','a','t' または 'ca','t' または 'cat' として表現する。
潜在的分解学習の使用により、語彙レベルモデルの OOV 問題を回避し、文字レベルモデルの長いシーケンス長の問題を軽減できる。
CTC や HMM ベースのモデルとは異なり、マルコフ仮定に依存せず、マルチモーダルな出力分布を効果的に学習できる。
結果から、入力に情報された分解学習が、エンド・ツー・エンド ASR におけるより効率的かつ正確なシーケンスモデリングをもたらすことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。