QUICK REVIEW

[論文レビュー] Towards better decoding and language model integration in sequence to sequence models

Jan Chorowski, Navdeep Jaitly|arXiv (Cornell University)|Dec 8, 2016

Speech Recognition and Synthesis参考文献 27被引用数 58

ひとこと要約

本論文は、語彙スムージングとビームサーチ中のカバレッジペナルティを導入することで、音声認識のためのsequence-to-sequence（seq2seq）モデルにおけるデコード法と言語モデル統合を改善する。この手法により、過信度の低下と不完全な翻訳が軽減され、Wall Street Journalデータセットで言語モデルなしでは10.6% WER、3-gram言語モデルを用いると6.7% WERを達成した。

ABSTRACT

The recently proposed Sequence-to-Sequence (seq2seq) framework advocates replacing complex data processing pipelines, such as an entire automatic speech recognition system, with a single neural network trained in an end-to-end fashion. In this contribution, we analyse an attention-based seq2seq speech recognition system that directly transcribes recordings into characters. We observe two shortcomings: overconfidence in its predictions and a tendency to produce incomplete transcriptions when language models are used. We propose practical solutions to both problems achieving competitive speaker independent word error rates on the Wall Street Journal dataset: without separate language models we reach 10.6% WER, while together with a trigram language model, we reach 6.7% WER.

研究の動機と目的

音声認識のためのアテンションベースのseq2seqモデルにおける過信度と不完全な翻訳を解消する。
訓練中のモデル予測を正則化することで、一般化性能とデコード品質を向上させる。
アーキテクチャの複雑化を犠牲にすることなく、外部言語モデルを効果的に統合する。
カバレッジペナルティを用いてビームサーチデコードを最適化し、繰り返しのフレームへのアテンション過剰使用を低減する。
CTCやDNN-HMMシステムといった強力なベースラインと競合する性能を示す。

提案手法

訓練中にターゲット分布をなめららかにするために一様分布スムージングと時間的スムージングを適用し、モデルの過信度を低減する。
ビームサーチ中に、すでに注目されたフレームへのアテンション過剰使用をペナルティ化するカバレッジペナルティを導入する。
ビーム幅、言語モデル重み、カバレッジ閾値を調整可能なビームサーチデコーダーを用い、最適な仮説選択を実現する。
以前のアテンション重みに畳み込みフィルタを適用することで、アライメントの安定性を向上させるアテンション機構を実装する。
語彙スムージングを用いた交差エントロピー損失と、学習率スケジューリングを伴うADAM最適化を用いてモデルを訓練する。
訓練中に追加の正則化手法として重みノイズと重み減衰を適用する。

実験結果

リサーチクエスチョン

RQ1seq2seqモデルの予測における過信度をどのように軽減すれば、デコードの多様性が向上するか？
RQ2語彙スムージングは、エンドツーエンド音声認識におけるWERとモデル一般化性能にどのような影響を与えるか？
RQ3ビームサーチ中のカバレッジペナルティは、不完全な翻訳とアテンションの繰り返しをどのように低減するか？
RQ4seq2seqモデルに言語モデルを単純に統合することで、構造的複雑さを犠牲にせず競争力のある性能を達成できるか？
RQ5局所正規化と正則化を用いた手法が、グローバル正規化やラティスベースの訓練を上回る程度はどの程度か？

主な発見

外部言語モデルなしで、WSJ eval92セットにおいて語彙スムージングによりWERが14.2%から10.6%に低下した。
3-gram言語モデルを用いることで、eval92で6.7% WERを達成し、最先端のDNN-HMMおよびCTCアンサンブルシステムと同等の性能を示した。
カバレッジペナルティは翻訳の完全性を顕著に向上させ、アテンションの飛躍や繰り返しに起因する誤りを低減した。
時間的語彙スムージング（隣接トークン）は一様スムージングを上回り、言語モデルを用いたdev93で9.7% WERを達成した。
わずか660万パラメータで競争力のある結果を達成したため、より深いアーキテクチャに比べて効率的であることが示された。
ビーム幅200、λ=0.5、γ=1.5、τ=0.5に最適化されたパラメータを用いたビームサーチが、言語モデルを用いた場合の最適性能を発揮する上で不可欠であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。