Skip to main content
QUICK REVIEW

[论文解读] POINTER: Constrained Text Generation via Insertion-based Generative Pre-training

Yizhe Zhang, Guoyin Wang|arXiv (Cornell University)|May 1, 2020
Topic Modeling被引用 23
一句话总结

POINTER 通过并行、基于插入的非自回归方法实现硬约束文本生成,逐步插入标记,实现可解释的、从粗到细的生成。在 12GB 的维基百科数据上使用类似 BERT 的目标进行预训练,其在 News 和 Yelp 数据集上达到最先进性能,推理复杂度为对数级别。

ABSTRACT

Large-scale pre-trained language models, such as BERT and GPT-2, have achieved excellent performance in language representation learning and free-form text generation. However, these models cannot be directly employed to generate text under specified lexical constraints. To address this challenge, we present POINTER, a simple yet novel insertion-based approach for hard-constrained text generation. The proposed method operates by progressively inserting new tokens between existing tokens in a parallel manner. This procedure is recursively applied until a sequence is completed. The resulting coarse-to-fine hierarchy makes the generation process intuitive and interpretable. Since our training objective resembles the objective of masked language modeling, BERT can be naturally utilized for initialization. We pre-train our model with the proposed progressive insertion-based objective on a 12GB Wikipedia dataset, and fine-tune it on downstream hard-constrained generation tasks. Non-autoregressive decoding yields a logarithmic time complexity during inference time. Experimental results on both News and Yelp datasets demonstrate that POINTER achieves state-of-the-art performance on constrained text generation. We intend to release the pre-trained model to facilitate future research.

研究动机与目标

  • 为解决现有预训练语言模型在严格词汇约束下生成文本的局限性。
  • 开发一种非自回归生成方法,以保持对输出内容的可解释性与控制力。
  • 利用掩码语言建模目标进行初始化,通过将基于插入的训练目标与 BERT 对齐。
  • 实现在高效对数时间复杂度下的高质量约束文本生成。
  • 发布一个预训练模型,以支持未来在约束文本生成领域的研究。

提出的方法

  • 该模型通过以并行、从粗到细的方式在现有标记之间逐步插入新标记来生成文本。
  • 训练目标模拟掩码语言建模,从而可使用预训练的 BERT 检查点进行初始化。
  • 一种渐进式插入机制递归应用标记插入,直至形成完整序列。
  • 该方法采用非自回归解码策略,使推理期间的时间复杂度达到 O(log n)。
  • 该模型在 12GB 的维基百科数据集上使用基于插入的目标进行预训练,随后在下游约束生成任务上进行微调。
  • 该架构支持端到端训练,插入操作可微分,从而保持序列的一致性。

实验结果

研究问题

  • RQ1基于插入的非自回归方法是否能在约束文本生成中优于自回归模型?
  • RQ2将插入目标与掩码语言建模对齐,在多大程度上能提升训练稳定性和性能?
  • RQ3从粗到细的分层生成过程是否能增强约束生成中的可解释性与控制力?
  • RQ4基于插入的方法的对数推理复杂度与自回归基线相比,在速度和质量方面表现如何?
  • RQ5该模型是否能在新闻生成和评论生成等多样化约束生成任务中实现泛化?

主要发现

  • POINTER 在 News 和 Yelp 数据集上的硬约束文本生成任务中均达到最先进性能。
  • 与现有自回归和非自回归基线相比,该模型在词汇约束下的生成质量更优。
  • 非自回归解码实现了对数时间复杂度,显著加速了推理过程。
  • 与掩码语言建模对齐的基于插入的训练目标,使预训练和微调更加高效。
  • 从粗到细的层次结构提供了可解释且直观的生成过程。
  • 已发布预训练模型,以支持未来在约束文本生成领域的研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。