[论文解读] Alternating Recurrent Dialog Model with Large-scale Pre-trained Language Models
ARDM 在交替的、记忆循环框架中为用户和系统话语使用两个独立的预训练语言模型,在 CamRest676、MultiWOZ 和 PersuasionForGood 数据集上实现强结果,同时无需显式的信念状态或对话行为注释。
Existing dialog system models require extensive human annotations and are difficult to generalize to different tasks. The recent success of large pre-trained language models such as BERT and GPT-2 (Devlin et al., 2019; Radford et al., 2019) have suggested the effectiveness of incorporating language priors in down-stream NLP tasks. However, how much pre-trained language models can help dialog response generation is still under exploration. In this paper, we propose a simple, general, and effective framework: Alternating Roles Dialog Model (ARDM). ARDM models each speaker separately and takes advantage of the large pre-trained language model. It requires no supervision from human annotations such as belief states or dialog acts to achieve effective conversations. ARDM outperforms or is on par with state-of-the-art methods on two popular task-oriented dialog datasets: CamRest676 and MultiWOZ. Moreover, we can generalize ARDM to more challenging, non-collaborative tasks such as persuasion. In persuasion tasks, ARDM is capable of generating human-like responses to persuade people to donate to a charity.
研究动机与目标
- 推动在任务导向对话系统中降低标注负担。
- 利用大规模预训练语言模型在无信念状态或对话行为标签的情况下学习对话行为。
- 提出一种基于记忆的交替架构来建模用户和系统的对话话语。
- 展示在包括劝说在内的多种对话任务中的有效性。
提出的方法
- 为用户与系统话语建模两个独立的预训练语言模型,并训练它们在历史条件下生成下一个标记。
- 引入一种记忆递归机制,重复使用历史隐藏状态以实现长距离依赖(Transformer-XL 风格)。
- 以 GPT-2 small 作为初始化,在任务数据集上使用 AdamW、标准超参数和基于触发的提示进行微调,以实现零-shot 对话生成。
- 使用核心采样和温度控制的解码,并结合动态对话过滤方法实现高效的批量解码。
- 不依赖信念状态或对话行为监督;可选地在数据库查询中使用一个简单的非神经网络信念提取器进行实体跟踪。
实验结果
研究问题
- RQ1带有记忆递归的交替、说话者特定的语言模型是否能在无需标注的信念状态或对话行为的情况下提升对话应答生成?
- RQ2与带注释的基线相比,ARDM 在传统任务导向数据集(CamRest676、MultiWOZ)上的表现如何?
- RQ3在低资源环境下 ARDM 是否鲁棒且是否能扩展到非协作任务如劝说?
- RQ4ARDM 对劝说性对话生成的人类评估有何影响?
- RQ5在长对话中解码和内存管理的实际注意事项有哪些?
主要发现
- ARDM 在 CamRest676 和 MultiWOZ 上的表现优于或等于最先进方法,而无需将信念状态或对话行为作为监督。
- AR DM 在训练数据减少(50%)的情况下仍保持强劲性能,在资源有限条件下超越一些有监督的基线。
- 在 MultiWOZ 中,ARDM 在未注释的情况下超越了若干基线,并且与像 HDSA 这样的带行为监督的模型相竞争。
- 在 PersuasionForGood 上,ARDM 的困惑度低于 TransferTransfo,并获得更强的人类偏好,捐赠倾向更高。
- 该方法展示了对非协作任务(如慈善劝说)的泛化能力,表明交替说话者模型具有广泛的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。