Skip to main content
QUICK REVIEW

[论文解读] PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning

Siqi Bao, He Huang|arXiv (Cornell University)|Jun 30, 2020
Topic Modeling参考文献 38被引用 27
一句话总结

PLATO-2 提出了一种两阶段课程学习框架,用于训练大规模开放域聊天机器人。首先,通过简化的一对一映射预训练一个粗粒度模型,以学习通用响应生成模式;随后,在第二阶段使用离散潜在变量和一个评估模型,对细粒度生成模型进行微调,以生成多样化且连贯的响应。该方法在英文和中文基准测试中均取得了最先进性能,优于 Meena 和 Blender 等模型。

ABSTRACT

To build a high-quality open-domain chatbot, we introduce the effective training process of PLATO-2 via curriculum learning. There are two stages involved in the learning process. In the first stage, a coarse-grained generation model is trained to learn response generation under the simplified framework of one-to-one mapping. In the second stage, a fine-grained generative model augmented with latent variables and an evaluation model are further trained to generate diverse responses and to select the best response, respectively. PLATO-2 was trained on both Chinese and English data, whose effectiveness and superiority are verified through comprehensive evaluations, achieving new state-of-the-art results.

研究动机与目标

  • 解决将 PLATO 模型扩展到更大参数规模时出现的训练不稳定与效率低下的问题。
  • 通过显式建模潜在变量的一对多映射,提升开放域对话中的响应质量。
  • 通过一个独立训练的双向连贯性估计评估模型,增强响应的连贯性与多样性。
  • 实现对多种对话任务的有效迁移,包括开放域闲聊、知识增强对话和任务导向型对话。
  • 通过课程学习构建一个统一且可扩展的预训练框架,用于对话人工智能。

提出的方法

  • 训练分为两个阶段:首先,在简化的一对一映射下训练一个粗粒度生成模型,以学习通用响应模式。
  • 第二阶段,使用离散潜在变量训练一个细粒度生成模型,以对同一上下文生成多样化响应。
  • 训练一个评估模型,用于估计对话上下文与候选响应之间的双向连贯性,从而实现响应选择。
  • 利用第一阶段的模型参数作为第二阶段模型的权重初始化,确保训练过程稳定推进。
  • 采用统一的 Transformer 架构并结合预归一化机制,通过灵活的注意力机制同时支持上下文编码与自回归响应生成。
  • 该框架被应用于英文和中文数据集,相关模型已在 GitHub 上发布,供研究使用。

实验结果

研究问题

  • RQ1课程学习能否有效稳定大规模开放域聊天机器人在复杂一对多响应生成任务中的训练?
  • RQ2先预训练粗粒度模型是否能提升后续使用潜在变量进行细粒度响应生成的质量与稳定性?
  • RQ3一个专门用于连贯性估计的评估模型是否能显著提升响应选择质量与整体对话性能?
  • RQ4两阶段 PLATO-2 框架在多种对话任务(包括开放域、知识增强和任务导向型对话)中的泛化能力如何?
  • RQ5课程学习方法是否能在保持或超越现有最先进模型性能的前提下,实现模型参数规模扩展至 1.6B?

主要发现

  • PLATO-2 在英文和中文开放域对话基准测试中均达到最先进性能,优于 Meena、Blender 及其他领先模型。
  • 两阶段课程学习方法成功实现了对 1.6B 参数模型的训练,克服了原始 PLATO 模型直接扩展时出现的训练不稳定性问题。
  • 在 DSTC9 的全部三项任务中均获得第一名,包括开放域闲聊、知识增强对话和端到端任务导向型对话。
  • 独立训练细粒度生成器与评估模型,减少了多任务干扰,提升了响应多样性与连贯性的表现。
  • 全面的人工评估证实,PLATO-2 生成的响应比以往模型更具吸引力、多样性更高且上下文连贯性更强。
  • 该框架展现出强大的迁移能力,无需架构重构即可有效支持多种对话类型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。