Skip to main content
QUICK REVIEW

[论文解读] Training Millions of Personalized Dialogue Agents

Pierre-Emmanuel Mazaré, Samuel Humeau|arXiv (Cornell University)|Sep 6, 2018
Topic Modeling参考文献 12被引用 23
一句话总结

本文提出一个包含500万用户人格特征和7亿条基于人格的对话数据集,数据源自Reddit,可用于训练端到端的个性化对话智能体。作者表明,基于该大规模数据集进行预训练可显著提升响应生成性能,并通过迁移学习在Persona-Chat基准测试中达到最先进水平。

ABSTRACT

Current dialogue systems are not very engaging for users, especially when trained end-to-end without relying on proactive reengaging scripted strategies. Zhang et al. (2018) showed that the engagement level of end-to-end dialogue models increases when conditioning them on text personas providing some personalized back-story to the model. However, the dataset used in Zhang et al. (2018) is synthetic and of limited size as it contains around 1k different personas. In this paper we introduce a new dataset providing 5 million personas and 700 million persona-based dialogues. Our experiments show that, at this scale, training using personas still improves the performance of end-to-end systems. In addition, we show that other tasks benefit from the wide coverage of our dataset by fine-tuning our model on the data from Zhang et al. (2018) and achieving state-of-the-art results.

研究动机与目标

  • 通过引入用户人格特征,解决端到端对话系统中参与度低和个性化不足的问题。
  • 克服现有人格数据集(如Persona-Chat)数据量少且为合成数据的问题,后者仅包含约1000个个人格特征。
  • 利用真实世界的Reddit对话,构建大规模、多样化且具有代表性的基于人格的对话数据集。
  • 证明在该大规模数据集上进行预训练可提升下游个性化对话任务的性能。
  • 探究不同人格提取策略对对话生成质量及模型泛化能力的影响。

提出的方法

  • 提取17亿条Reddit评论,并应用启发式规则基于语言特征识别用户人格:4–20个词,包含代词'I'或'my',至少包含一个动词和一个名词/代词/形容词。
  • 使用在Persona-Chat数据集上训练的词袋分类器对候选人格句子进行过滤和排序,提升选择质量,优于仅使用规则的方法。
  • 构建训练样本格式为:(人格, 上下文, 响应),其中人格为描述用户特质的最多N句话的集合。
  • 在基于Reddit的人格数据集上训练LSTM和基于Transformer的模型,使用Adamax优化器、512批次大小和FastText词嵌入。
  • 在基于Reddit的任务和Persona-Chat基准测试上评估模型,包括零样本推理和微调。
  • 通过在较小的Persona-Chat数据集上微调在Reddit上预训练的模型,应用迁移学习,评估模型泛化能力和性能提升。

实验结果

研究问题

  • RQ1在大规模、多样化的真实世界人格对话数据集上进行大规模预训练,能否提升端到端对话模型的性能?
  • RQ2人格提取方法的选择(规则、分类器、随机选择)如何影响对话生成质量与模型泛化能力?
  • RQ3在大规模Reddit数据集上进行预训练,能在多大程度上迁移到较小的、精心构建的基准测试(如Persona-Chat)上?
  • RQ4在开放域对话中,基于用户人格的条件输入是否能带来更一致且更具参与感的响应?
  • RQ5每人格特征的句子数量(即人格大小)对响应生成准确率有何影响?

主要发现

  • 在500万个人格特征、7亿条对话的数据集上进行训练,相比无人格条件的模型,显著提升了响应生成准确率。
  • 在Reddit预训练后,对Persona-Chat数据集进行微调的模型达到60.7%的hits@1,远超此前最先进水平(35.4%)。
  • 将每人格特征的最大句子数从20增加到100,使Reddit测试集上的hits@1从71.3%提升至74.4%。
  • 在Persona-Chat数据集上训练的分类器在Reddit数据集上应用时性能下降,表明两数据集间存在风格或分布差异。
  • 表现最佳的模型(使用100句人格特征的Transformer模型,结合规则与分类器选择)在Reddit测试集上达到74.4%的hits@1。
  • 在Persona-Chat上微调Reddit预训练模型,使hits@1提升了18.6个百分点,证明了强大的迁移能力以及预训练数据的广泛覆盖性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。