QUICK REVIEW

[论文解读] COLD Decoding: Energy-based Constrained Text Generation with Langevin Dynamics

Lianhui Qin, Sean Welleck|arXiv (Cornell University)|Feb 23, 2022

Topic Modeling被引用 43

一句话总结

COLD 解码将受限文本生成视为从能量基模型使用 Langevin 动力学进行采样的过程，使得在不对预训练语言模型进行微调的情况下实现灵活、任务无关的约束集成。它在溯因推理、反事实故事生成以及词汇受限解码方面显示出性能提升。

ABSTRACT

Many applications of text generation require incorporating different constraints to control the semantics or style of generated text. These constraints can be hard (e.g., ensuring certain keywords are included in the output) and soft (e.g., contextualizing the output with the left- or right-hand context). In this paper, we present Energy-based Constrained Decoding with Langevin Dynamics (COLD), a decoding framework which unifies constrained generation as specifying constraints through an energy function, then performing efficient differentiable reasoning over the constraints through gradient-based sampling. COLD decoding is a flexible framework that can be applied directly to off-the-shelf left-to-right language models without the need for any task-specific fine-tuning, as demonstrated through three challenging text generation applications: lexically-constrained generation, abductive reasoning, and counterfactual reasoning. Our experiments on these constrained generation tasks point to the effectiveness of our approach, both in terms of automatic and human evaluation.

研究动机与目标

激发受限文本生成，其中约束可以是硬性的（关键词）或软性的（上下文），并且在不同任务中变化。
通过将解码公式化为从能量基模型（EBM）采样，将多样的约束类型统一起来。
在不进行任务特定微调的情况下，使用 Langevin 动力学实现对约束的基于梯度、可微分的推理。
在多种受限生成任务上演示该方法，并与现有解码方法进行比较。

提出的方法

将受限解码公式化为从能量基分布 p(y) = exp{sum_i lambda_i f_i(y)} / Z 的文本序列中采样。
将离散文本放松为连续的软序列 y~；定义能量 E(y~) = -sum_i lambda_i f_i(y~) 并执行 Langevin 更新 y~(n+1) = y~(n) - eta grad_y~ E(y~(n)) + epsilon^(n)。
定义可微约束函数（软流畅度、未来上下文预测、n-gram 相似度），可将其代入能量函数。
使用以底层 LM 为引导的 top-k 过滤的软到离散映射，从连续样本生成流畅的离散输出。
用基于 LM 的贪心 logits 进行初始化，在 Langevin 动力学中施加衰减的噪声计划，并可选地执行 sample-and-select 以在多个输出中进行选择。
通过在每个位置的前 k 个 LM 候选中取最可能的标记进行离散化，必要时辅以约束标记以满足硬性约束。）

实验结果

研究问题

RQ1在无需任务特定微调的情况下，使用具有能量基形式的 Langevin 动力学的受限解码能否与现成的语言模型协同工作？
RQ2不同的可微约束函数（流畅度、上下文连贯性、n-gram 相似度）如何结合以实现多样的受限生成任务？
RQ3在溯因推理、反事实故事生成以及词汇受限解码方面，COLD 解码是否优于任务特定或基于梯度的基线？

主要发现

COLD 解码在溯因推理方面相比基线方法在词汇覆盖率和文本连贯性方面有提升。
人工评估显示 COLD 在考虑左侧和右侧上下文时比有竞争力的基线具有更高的整体连贯性。
在反事实故事改写中，COLD 相对于 Delorean 在连贯性更好且最小编辑量度相当。
对于词汇受限解码，COLD 在关键字覆盖率方面高于某些基线，同时保持流畅性。
在多任务中，COLD 展示了在无需任务特定微调的情况下，在统一的解码框架中处理多样约束的能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。