[论文解读] Lexically Constrained Decoding for Sequence Generation Using Grid Beam Search
本文提出网格束搜索(GBS),一种新型解码算法,通过在序列生成过程中强制执行词汇约束(如必需的词或短语)来扩展束搜索,且无需重新训练模型。通过将约束整合到束搜索网格中,GBS 在神经机器翻译中显著提升了生成质量,尤其在交互式和领域自适应场景下表现突出,即使约束是自动从术语中提取的,也能实现性能提升。
We present Grid Beam Search (GBS), an algorithm which extends beam search to allow the inclusion of pre-specified lexical constraints. The algorithm can be used with any model that generates a sequence $ \mathbf{\hat{y}} = \{y_{0}\ldots y_{T}\} $, by maximizing $ p(\mathbf{y} | \mathbf{x}) = \prod\limits_{t}p(y_{t} | \mathbf{x}; \{y_{0} \ldots y_{t-1}\}) $. Lexical constraints take the form of phrases or words that must be present in the output sequence. This is a very general way to incorporate additional knowledge into a model's output without requiring any modification of the model parameters or training data. We demonstrate the feasibility and flexibility of Lexically Constrained Decoding by conducting experiments on Neural Interactive-Predictive Translation, as well as Domain Adaptation for Neural Machine Translation. Experiments show that GBS can provide large improvements in translation quality in interactive scenarios, and that, even without any user input, GBS can be used to achieve significant gains in performance in domain adaptation scenarios.
研究动机与目标
- 在不修改模型参数或重新训练的前提下,实现用户指定或领域特定的词汇约束(如短语或词语)在序列生成输出中的包含。
- 开发一种解码算法,在保持束搜索的效率和可扩展性的同时,确保所需子序列出现在输出中。
- 评估词汇约束解码在神经机器翻译的交互式机器翻译和领域自适应中的有效性。
- 证明即使约束是基于领域术语自动提取的,GBS 也能实现显著的性能提升。
提出的方法
- GBS 通过将假设组织成二维网格,扩展了标准束搜索,其中一维表示时间上的生成进度,另一维表示每个词汇约束的进展状态。
- 网格中的每个单元存储一个包含 k 个最佳假设的束,每个假设同时跟踪其在输出序列中的位置以及每个约束的状态(未开始、进行中或已完成)。
- 在每个解码步骤中,通过扩展已有假设生成新假设,并通过特殊处理确保约束不会过早被丢弃或违反。
- 该算法采用动态规划方法在搜索空间中传播约束,确保最终输出中的所有假设均包含所有指定的词汇约束。
- 约束以必须出现在输出任意位置的子序列形式编码,该方法支持多个长度各异的并行约束。
- 解码过程与模型无关,可应用于任何通过自回归概率估计逐 token 生成输出的序列模型。
实验结果
研究问题
- RQ1能否设计一种束搜索变体,在不重新训练模型的前提下强制执行序列生成中的任意词汇约束?
- RQ2词汇约束解码在交互式机器翻译场景中提升翻译质量的效率如何?
- RQ3GBS 是否能仅通过基于术语的约束,在神经机器翻译的领域自适应中实现有意义的性能提升?
- RQ4当应用于不依赖输入-输出对齐的模型时,该方法是否仍保持高效性和可扩展性?
主要发现
- GBS 显著提升了交互式机器翻译场景下的翻译质量,其中用户修正被视作词汇约束,并用于指导重新生成。
- 即使没有用户输入,GBS 通过将领域特定术语作为约束引入,也能在领域自适应中实现显著的性能提升。
- 该方法优于标准束搜索和基线约束解码方法,尤其在需要精确词汇控制的场景中表现更优。
- 即使约束是自动从领域术语中提取的,该方法依然有效,展现出强大的鲁棒性和实际应用价值。
- GBS 保持了与标准束搜索相当的计算效率,适用于实时应用场景。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。