QUICK REVIEW

[论文解读] Imputer: Sequence Modelling via Imputation and Dynamic Programming

William Chan, Chitwan Saharia|arXiv (Cornell University)|Feb 20, 2020

Speech Recognition and Synthesis参考文献 52被引用 23

一句话总结

Imputer 是一种神经序列模型，通过在固定大小的对齐画布上进行迭代填充来生成序列，利用动态规划近似对所有可能的对齐方式和生成顺序进行边缘化。其在 LibriSpeech test-other 上达到 11.1 WER，优于非自回归模型如 CTC（13.0 WER），并匹配自回归 seq2seq 模型（12.5 WER）。

ABSTRACT

This paper presents the Imputer, a neural sequence model that generates output sequences iteratively via imputations. The Imputer is an iterative generative model, requiring only a constant number of generation steps independent of the number of input or output tokens. The Imputer can be trained to approximately marginalize over all possible alignments between the input and output sequences, and all possible generation orders. We present a tractable dynamic programming training algorithm, which yields a lower bound on the log marginal likelihood. When applied to end-to-end speech recognition, the Imputer outperforms prior non-autoregressive models and achieves competitive results to autoregressive models. On LibriSpeech test-other, the Imputer achieves 11.1 WER, outperforming CTC at 13.0 WER and seq2seq at 12.5 WER.

研究动机与目标

开发一种序列模型，通过仅需恒定数量的生成步骤（与序列长度无关），在速度与精度之间取得平衡。
在序列建模中实现对所有可能对齐方式和生成顺序的近似边缘化，尤其适用于语音识别等单调任务。
克服非自回归模型中假设输出标记之间条件独立的局限性，提升性能而不牺牲推理速度。
设计一种支持双向上下文且避免编码器-解码器架构中典型交叉注意力机制的模型，从而简化模型结构。

提出的方法

Imputer 使用固定大小的对齐画布，将输入和输出序列叠加，实现缺失标记的迭代填充。
其将生成过程建模为一系列填充操作，每一步基于部分对齐条件，预测一个标记块。
采用动态规划算法，通过对部分对齐的所有可能完成方式求和，计算对数边缘似然的下界。
通过可微分的边缘似然近似方法进行端到端训练，利用单调对齐的结构特性。
采用基于块的解码策略，确保非重叠的并行填充，保持局部一致性与计算效率。
模型架构结合卷积与自注意力机制，以同时建模局部声学特征与全局上下文依赖。

实验结果

研究问题

RQ1序列模型是否能在仅需恒定数量生成步骤的前提下，实现与自回归模型相当的性能？
RQ2如何在不产生指数级计算成本的前提下，有效对所有可能的对齐方式和生成顺序进行边缘化？
RQ3基于固定画布的迭代填充是否能优于现有非自回归模型（如 CTC 和 NAT）在端到端语音识别中的表现？
RQ4在非自回归、恒定步长生成框架中，双向上下文的融入程度如何？
RQ5避免使用交叉注意力机制是否能提升长单调序列（如语音）上的训练效率与性能？

主要发现

在 LibriSpeech test-other 基准上，Imputer 达到 11.1% 的词错误率（WER），优于 CTC（13.0 WER）和 seq2seq（12.5 WER）。
Imputer 在仅需恒定数量生成步骤（与序列长度无关）的前提下，实现了与自回归模型相当的性能。
基于块的解码策略（非重叠填充）相比贪婪 top-k 解码（11.6 WER）表现更优（11.2 WER），表明结构化生成的重要性。
模拟退火与长度预测策略在收敛模型上未提升性能，表明标准训练与解码设置具有鲁棒性。
该模型无需长度预测或交叉注意力机制，简化了模型结构，同时保持了强劲性能。
使用 CTC 对齐进行滚动初始化可提升训练稳定性和性能，表明 CTC 提供的强归纳偏置对 Imputer 训练有益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。