[论文解读] Controlling Style in Generated Dialogue
该论文将三种可控生成方法应用于开放域对话,以跨约217种目标风格控制风格,比较检索与风格转换、 plug-and-play refinement、以及在最先进对话模型上进行有条件的生成。微调后的有条件生成在匹配目标风格方面表现最佳,推理速度更快。
Open-domain conversation models have become good at generating natural-sounding dialogue, using very large architectures with billions of trainable parameters. The vast training data required to train these architectures aggregates many different styles, tones, and qualities. Using that data to train a single model makes it difficult to use the model as a consistent conversational agent, e.g. with a stable set of persona traits and a typical style of expression. Several architectures affording control mechanisms over generation architectures have been proposed, each with different trade-offs. However, it remains unclear whether their use in dialogue is viable, and what the trade-offs look like with the most recent state-of-the-art conversational architectures. In this work, we adapt three previously proposed controllable generation architectures to open-domain dialogue generation, controlling the style of the generation to match one among about 200 possible styles. We compare their respective performance and tradeoffs, and show how they can be used to provide insights into existing conversational datasets, and generate a varied set of styled conversation replies.
研究动机与目标
- 在开放域对话模型中建立稳定的人设与风格需求,且训练数据来自多样化来源。
- 评估三种可控生成方法用于对话的表现:检索与风格转换、即插即用(PPLM)精炼,以及有条件生成。
- 量化风格控制的准确性、训练/推理成本,以及对其他对话指标的影响之间的权衡。
- 展示一个实用的管线,用于对风格条件化微调进行域内数据标注,并验证对新风格空间的泛化能力。
提出的方法
- 将三种可控生成架构改编用于对话:检索与风格转换(RnST)、基于语言模型的即插即用(PPLM)精炼、以及有条件生成(C)。
- 使用来自 Image-Chat 的中等规模 217 风格空间来训练和评估风格控制分类器与生成器。
- 在 D+(D 加上推断或提供的风格标签的扩展数据)上对生成模型进行微调,以实现风格条件化生成。
- 在自动风格控制准确度、人工评估以及对话质量指标方面比较性能。
- 评估各方法的资源成本(训练/推理)以及实际落地部署考量。
实验结果
研究问题
- RQ1开放域对话模型是否能够在大风格空间内可靠地生成指定目标风格?
- RQ2在对话风格控制中,检索与转移、迭代改进、以及有条件生成之间存在哪些权衡?
- RQ3风格迁移是否能从基于图像的风格标签推广到纯文本对话?
- RQ4是否存在一个实用的管线能够标注未标注的对话数据以实现有效的风格条件微调?
- RQ5风格控制方法如何影响相关性、流畅性等核心对话指标?
主要发现
| Model | BST | IC |
|---|---|---|
| RnST-IC+D | 3.3% | 15.8% |
| C100-IC+D | 5.7% | 16.7% |
- 微调后的有条件生成(C)在匹配目标风格方面表现最强,并在保留其他对话指标方面优于替代方法。
- 在检索上下文上进行风格条件化的检索与风格转换(RnST)对风格控制的效果弱于纯生成,可能降低风格准确性。
- 基于 PPLM 的精炼提供灵活、粒度化控制,但在对本研究使用的 217 风格空间下推理时计算成本高,收益有限。
- 一种实用的标注方法(D+),使用在风格标注数据集上训练的分类器对未标注数据进行标注,可实现对标准对话数据集的有效风格条件微调。
- 性能最佳的模型(C100/C75)在具有可表格化的风格-准确度提升和合理困惑度的同时实现了有意义的风格控制,并相较于迭代式精炼具有更高的推理效率。
- 本研究提供一个通用的管线,可将风格条件化应用于任何可训练分类器的风格空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。