[论文解读] DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation
DialoGPT 是一个基于 GPT-2 架构的大规模开放域对话响应生成模型,训练于 1.47亿条 Reddit 对话,单轮对话中表现接近人类,并发布了研究用的预训练模型和训练管线。
We present a large, tunable neural conversational response generation model, DialoGPT (dialogue generative pre-trained transformer). Trained on 147M conversation-like exchanges extracted from Reddit comment chains over a period spanning from 2005 through 2017, DialoGPT extends the Hugging Face PyTorch transformer to attain a performance close to human both in terms of automatic and human evaluation in single-turn dialogue settings. We show that conversational systems that leverage DialoGPT generate more relevant, contentful and context-consistent responses than strong baseline systems. The pre-trained model and training pipeline are publicly released to facilitate research into neural response generation and the development of more intelligent open-domain dialogue systems.
研究动机与目标
- 通过一个大型、预训练的变换器模型来推动开放域对话生成。
- 证明在大规模对话数据上进行对话特定预训练可以提升回复质量。
- 在 DSTC-7 和多参考 Reddit 数据集上展示最先进的自动和人工评估绩效。
- 提供开源的训练管线和预训练模型以促进进一步研究。
提出的方法
- 通过将对话轮拼接成一个长文本,以最大化条件概率 P(T|S),来扩展 GPT-2 架构以建模多轮对话。
- 在 147M 条 Reddit 对话、50,257 词汇表、字节对编码条件下,训练三种模型规模(117M、345M、762M 参数)。
- 利用向后模型应用最大互信息(MMI)重排序步骤,以倾向于信息丰富且不乏味的回复。
- 对生成设置进行实验,包括 top-K 采样和束搜索,以评估多样性和质量。
- 使用自动指标(NIST、BLEU、METEOR、Entropy、Dist)以及在 DSTC-7 和 6K Reddit 多参考测试集上的人工评估进行评估。
实验结果
研究问题
- RQ1在大规模对话数据上训练的基于 GPT-2 的模型,是否能够产生比基线更相关、信息丰富且前后文一致的开放域回复?
- RQ2更大的模型规模和解码策略(束搜索)是否提高开放域对话生成的自动和人工评估分数?
- RQ3通过互信息进行的向后模型重排序是否在不牺牲相关性的前提下提升回复的多样性和信息含量?
- RQ4在 Reddit 数据上,直接从零开始训练与对 GPT-2 进行预训练后再微调相比,微调的对话生成效果如何?
主要发现
- DialoGPT-345M 结合束搜索在 6K Reddit 多参考测试集上实现了大多数指标的最高自动分数。
- 较大的模型(345M 和 762M)在自动指标和人工评估方面均优于 117M 变体。
- 束搜索显著提升 BLEU 和 Dist-n 指标,对 NIST 和 METEOR 的提升有限。
- MMI 重排序提高多样性和信息含量(更高的 NIST、METEOR、Entropy、Dist),BLEU 略有下降。
- 人工评估显示,DialoGPT 的变体相对于生产环境基线(PersonalityChat)具有强烈偏好,在某些指标上 MMI 变体接近或超过人类偏好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。