[论文解读] GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection
GALAXY 引入半监督预训练,通过对话行为预测任务以及对未标注数据的一致性正则化,明确学习对话策略,在 In-Car 与 MultiWOZ 上实现任务导向对话(TOD)的最新 SOTA 结果。
Pre-trained models have proved to be powerful in enhancing task-oriented dialog systems. However, current pre-training methods mainly focus on enhancing dialog understanding and generation tasks while neglecting the exploitation of dialog policy. In this paper, we propose GALAXY, a novel pre-trained dialog model that explicitly learns dialog policy from limited labeled dialogs and large-scale unlabeled dialog corpora via semi-supervised learning. Specifically, we introduce a dialog act prediction task for policy optimization during pre-training and employ a consistency regularization term to refine the learned representation with the help of unlabeled dialogs. We also implement a gating mechanism to weigh suitable unlabeled dialog samples. Empirical results show that GALAXY substantially improves the performance of task-oriented dialog systems, and achieves new state-of-the-art results on benchmark datasets: In-Car, MultiWOZ2.0 and MultiWOZ2.1, improving their end-to-end combined scores by 2.5, 5.3 and 5.5 points, respectively. We also show that GALAXY has a stronger few-shot ability than existing models under various low-resource settings.
研究动机与目标
- 通过在预训练阶段注入显式策略学习来提升任务导向对话(TOD)。
- 开发统一的对话行为分类体系并建立带标注的 UniDA 数据集,以实现策略监督。
- 利用大规模未标注对话数据(UnDial)进行半监督学习以提升策略表征。
- 提出一个门控机制用于筛选未标注样本并引入一致性正则化目标。
- 展示端到端 TOD 的最新性能并具备较强的少样本能力。
提出的方法
- 以 UniLM 作为骨干网络,采用共享的编码器/解码器进行理解与生成。
- 在带标注数据上引入对话行为(DA)预测任务来监督预训练阶段的策略学习。
- 增加回复选择与回复生成目标以增强理解与生成能力。
- 对未标注数据在 dropout扰动样本上应用双向 KL 散度的一致性正则化。
- 实现一个可学习的门控,它基于预测 DA 的熵来对未标注样本进行加权以筛除噪声数据。
- 在微调阶段同时使用生成目标和(若可用)DA 监督,并在推理时结合 DA 预测。
实验结果
研究问题
- RQ1在预训练阶段显式建模对话策略是否能提升端到端 TOD 的性能?
- RQ2对未标注对话进行一致性正则化的半监督预训练是否能提升策略表征?
- RQ3门控机制在选择高质量的未标注样本用于策略相关学习方面有多大作用?
- RQ4在资源受限的情境下,采用策略信息化预训练的 TOD 能在少样本设置中带来何种收益?
主要发现
| 模型 | MultiWOZ2.0 Inform | MultiWOZ2.0 Success | MultiWOZ2.0 BLEU | MultiWOZ2.0 Comb | MultiWOZ2.1 Inform | MultiWOZ2.1 Success | MultiWOZ2.1 BLEU | MultiWOZ2.1 Comb |
|---|---|---|---|---|---|---|---|---|
| GALAXY | 94.40 | 85.30 | 20.50 | 110.35 | 95.30 | 86.20 | 20.01 | 110.76 |
| GALAXY (w/o pre-train) | 93.10 | 81.00 | 18.44 | 105.49 | 93.50 | 81.70 | 18.32 | 105.92 |
| UBAR | ? | ? | ? | ? | ? | ? | ? | ? |
| PPTOD | ? | ? | ? | ? | ? | ? | ? | ? |
| MinTL | ? | ? | ? | ? | ? | ? | ? | ? |
| DOls? | ? | ? | ? | ? | ? | ? | ? | ? |
| SimpleTOD | ? | ? | ? | ? | ? | ? | ? | ? |
| SOLOIST | ? | ? | ? | ? | ? | ? | ? | ? |
- GALAXY 在 In-Car、MultiWOZ2.0、MultiWOZ2.1 上实现了新的端到端 SOTA(Comb 分数分别为 107.45、110.35、110.76)。
- GALAXY 在 Inform 与 Success 指标上均优于基线,同时保持高 BLEU,表明强劲的任务完成度与自然的生成能力。
- 在消融实验中,DA 目标与 KL 一致性正则化至关重要;移除它们会降低性能。
- 门控机制通过筛选噪声未标注数据显著提升了性能。
- GALAXY 在各种低资源设置下显示出强劲的少样本性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。