[论文解读] Training Neural Response Selection for Task-Oriented Dialogue Systems
一个两步训练方案先在大规模 Reddit 数据上预训练神经响应选择模型,然后在六个目标任务导向的对话领域对其进行微调,使其在低数据设置下也能实现有效适应。
Despite their popularity in the chatbot literature, retrieval-based models have had modest impact on task-oriented dialogue systems, with the main obstacle to their application being the low-data regime of most task-oriented dialogue tasks. Inspired by the recent success of pretraining in language modelling, we propose an effective method for deploying response selection in task-oriented dialogue. To train response selection models for task-oriented dialogue tasks, we propose a novel method which: 1) pretrains the response selection model on large general-domain conversational corpora; and then 2) fine-tunes the pretrained model for the target dialogue domain, relying only on the small in-domain dataset to capture the nuances of the given dialogue domain. Our evaluation on six diverse application domains, ranging from e-commerce to banking, demonstrates the effectiveness of the proposed training method.
研究动机与目标
- 将响应选择作为构建任务型对话中专用本体与策略的有效替代方案来推动研究。
- 开发一个轻量级的两步训练过程,以克服目标域数据稀缺的问题。
- 在多样化领域评估预训练的响应选择模型,以评估可移植性和适应性的收益。
- 确定在预训练之后能够最大化性能的编码器架构和微调策略。
提出的方法
- 在一个大规模通用领域的 Reddit 数据集上预训练一个响应选择编码器,采用类 Transformer 的输入-输出编码器和缩放余弦相似度得分。
- 将输入与响应表示为来自 unigram/bigram 特征并通过自注意力与投影层处理后得到的 320 维嵌入,再得到 512 维的最终表示。
- 使用基于批次的最大边缘(max-margin)目标函数进行训练,将真实的输入-响应对与同批次中的负样本进行对比,以实现高效检索和潜在的近似最近邻搜索。
- 在六个域内数据集上对预训练模型进行微调(如开放域 OpenSubtitles 和领域特定的银行业等)使用两种策略:ft-direct(仅在域内数据上继续训练)和 ft-mixed(在同一批次中混合域内数据与 Reddit 数据以保留通用领域知识)。
- 与基线进行比较,包括仅针对目标域的训练、传统信息检索方法(tf-idf、BM25),以及现成的预训练编码器(如 use、elmo、bert 变体),以评估两步方法的价值。
实验结果
研究问题
- RQ1Q1:哪种编码器架构和预训练设置能最好地对 Reddit 数据进行响应选择建模?
- RQ2Q2:如何高效地将预训练的通用领域响应选择模型适应到多样化的目标对话域?
- RQ3Q3:轻量级微调策略(ft-direct 与 ft-mixed)是否优于直接应用预训练模型和仅目标域训练?
- RQ4Q4:在多个领域中,预训练+微调方法与强向量化基线和标准 IR 基线相比如何?
主要发现
- 在大规模 Reddit 语料上的预训练在输入-输出编码上优于若干基线,使用类 Transformer 的架构和自注意力带来提升。
- 使用域内数据微调在全部六个目标领域显著提升性能,尤其是在数据稀缺时。
- 两种微调策略(ft-direct 与 ft-mixed)优于直接在 Reddit 上应用和目标域训练,ft-direct 在域内数据充足时带来强劲增益,ft-mixed 有助于保留通用域能力。
- 该两步方法始终优于传统 IR 基线(tf-idf、BM25)和现成的句子编码器,强调了响应选择任务特定适应的重要性。
- ft-mixed 在适应域内任务的同时保持 Reddit 的表现,随着域内数据增加,Reddit 通用域测试数据的性能下降减少。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。