QUICK REVIEW

[論文レビュー] Imputer: Sequence Modelling via Imputation and Dynamic Programming

William Chan, Chitwan Saharia|arXiv (Cornell University)|Feb 20, 2020

Speech Recognition and Synthesis参考文献 52被引用数 23

ひとこと要約

Imputerは、固定サイズのアライメントキャンバス上で反復的に補完を行うニューラルシーケンスモデルであり、動的計画法を用いてアライメントおよび生成順序の周辺化を近似する。LibriSpeech test-otherで11.1 WERを達成し、CTC（13.0 WER）のような非自己回帰的モデルを上回り、自己回帰的seq2seq（12.5 WER）と同等の性能を発揮する。

ABSTRACT

This paper presents the Imputer, a neural sequence model that generates output sequences iteratively via imputations. The Imputer is an iterative generative model, requiring only a constant number of generation steps independent of the number of input or output tokens. The Imputer can be trained to approximately marginalize over all possible alignments between the input and output sequences, and all possible generation orders. We present a tractable dynamic programming training algorithm, which yields a lower bound on the log marginal likelihood. When applied to end-to-end speech recognition, the Imputer outperforms prior non-autoregressive models and achieves competitive results to autoregressive models. On LibriSpeech test-other, the Imputer achieves 11.1 WER, outperforming CTC at 13.0 WER and seq2seq at 12.5 WER.

研究の動機と目的

シーケンス長に依存しない定数の生成ステップ数で、速度と精度のバランスを取るシーケンスモデルの開発。
特にスピーチ認識のようなモノトニックなタスクにおいて、すべての可能なアライメントおよび生成順序の近似周辺化を可能にする。
出力トークン同士の条件付き独立性を仮定する非自己回帰的モデルの制限を克服し、推論速度を損なわずに性能を向上させる。
エンコーダデコーダアーキテクチャで一般的なクロスアテンション機構を回避し、双方向的文脈を扱えるモデルの設計。

提案手法

入力および出力シーケンスを重ね合わせる固定サイズのアライメントキャンバスを用い、欠損トークンの反復的補完を実現する。
各ステップが部分的なアライメントに依存し、トークンブロックを予測する補完の逐次的プロセスとして生成プロセスをモデル化する。
動的計画法を用いて、部分的アライメントのすべての可能な完成形の周辺化による対数周辺尤度の下界を計算する。
モノトニックアライメントの構造を活用し、微分可能近似を用いてエンドツーエンドで訓練する。
重複のない並列補完を保証するブロックベースのデコードを採用し、局所的整合性と計算効率を維持する。
局所的な音響特徴とグローバルな文脈的依存関係の両方をモデル化するため、畳み込みと自己アテンションを組み合わせたアーキテクチャを採用する。

実験結果

リサーチクエスチョン

RQ1自己回帰的モデルと同等の性能を達成しつつ、シーケンス長に依存しない定数の生成ステップ数を必要とするシーケンスモデルは可能か？
RQ2指数的計算コストを伴わずに、すべての可能なアライメントおよび生成順序の有効な周辺化はどのように実現できるか？
RQ3固定キャンバスを用いた反復的補完は、CTC や NAT のような既存の非自己回帰的モデルを上回る性能を発揮できるか？
RQ4双方向的文脈は、非自己回帰的かつ定数ステップ生成フレームワークにどの程度統合可能か？
RQ5クロスアテンション機構を回避することで、スピーチのような長いモノトニックシーケンスにおける学習効率と性能が向上するか？

主な発見

LibriSpeech test-otherベンチマークにおいて、Imputerは語誤り率（WER）11.1%を達成し、CTC（13.0 WER）および seq2seq（12.5 WER）を上回る。
Imputerは、シーケンス長に依存しない定数の生成ステップ数を必要としながらも、自己回帰的モデルと同等の性能を発揮する。
重複のない補完を伴うブロックベースデコードは、グリーディなトップ-kデコード（11.6 WER）よりも優れた性能（11.2 WER）を示し、構造的生成の重要性を示している。
シミュレーテッドアニーリングおよび長さ予測戦略は、収束したモデルでは性能向上をもたらさず、標準的な訓練およびデコード設定の堅牢性を示している。
長さ予測やクロスアテンションを必要としないため、アーキテクチャが簡素化されつつも強力な性能を維持している。
CTCアライメントを用いたロールイン初期化により、訓練の安定性と性能が向上し、CTCがImputerの訓練に有益な強いインダクティブバイアスを提供していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。