[论文解读] CTRL: A Conditional Transformer Language Model for Controllable Generation
CTRL 训练一个带有控制码的 1.63B 参数 Transformer 语言模型,用于引导领域、风格和任务特定生成,从而实现可控文本合成和基于模型的来源归因。
Large-scale language models show promising text generation capabilities, but users cannot easily control particular aspects of the generated text. We release CTRL, a 1.63 billion-parameter conditional transformer language model, trained to condition on control codes that govern style, content, and task-specific behavior. Control codes were derived from structure that naturally co-occurs with raw text, preserving the advantages of unsupervised learning while providing more explicit control over text generation. These codes also allow CTRL to predict which parts of the training data are most likely given a sequence. This provides a potential method for analyzing large amounts of data via model-based source attribution. We have released multiple full-sized, pretrained versions of CTRL at https://github.com/salesforce/ctrl.
研究动机与目标
- 提供一个可以通过控制码进行显式控制的语言模型。
- 在保持无监督训练优势的同时,实现领域和任务感知的生成。
- 证明控制码可以从自然数据结构(领域、URL 等)中派生。
- 展示 CTRL 如何通过将生成内容链接到训练数据子集来实现来源归因。
- 探索用于问答和机器翻译的任务特定控制码。
提出的方法
- 训练一个以控制码 c 为条件的大型 Transformer 语言模型,使用交叉熵损失学习 p(x|c)。
- 在每个训练序列前面附加一个领域控制码,以在领域文本中传播它。
- 使用一个相当大的词汇表(大约 250K 词元)以及长度为 256 或 512 的序列,采用滑动窗口生成方法。
- 将来自数据结构(如领域、URL 及链接)的领域、内容和任务特定控制码结合起来。
- 提出一种近贪婪的惩罚采样方法,在生成过程中平衡真实性与重复性。
- 展示用于问答和翻译等任务的复杂控制码,并展示零-shot 代码混合能力。
实验结果
研究问题
- RQ1在保持通用语言模型能力的同时,显式控制码是否能引导跨领域、风格和内容的生成?
- RQ2来自自然数据结构的控制码如何在不用大量提示的情况下实现可预测的、领域特定的生成?
- RQ3控制码对诸如 QA 和翻译等任务特定生成的影响是什么?
- RQ4CTRL 能否通过控制码将输出链接到训练数据的子集来支持来源归因?
- RQ5哪些采样和训练选择最能在规模化下支持可控、连贯的生成?
主要发现
- CTRL 可以在领域、风格、主题、日期、实体和关系等控制码指定的条件下生成文本。
- 控制码即使在相同提示下也能实现领域特定的变体,这在跨领域和模板的示例中有所展示。
- 惩罚性采样方法在保持对模型分布的遵循的同时减少重复性,从而提高事实性和连贯性。
- 用于问答和翻译的控制码为 CTRL 内的任务特定能力提供了直接访问。
- 在训练期间使用的 URL 等其他数据结构使推理时能够指定领域、子领域、实体、关系和日期。
- CTRL 实现了零-shot 代码混合,展示了跨领域和跨任务的可控性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。