QUICK REVIEW

[论文解读] Semantically Conditioned Dialog Response Generation via Hierarchical Disentangled Self-Attention

Wenhu Chen, Jianshu Chen|arXiv (Cornell University)|May 30, 2019

Topic Modeling参考文献 24被引用 22

一句话总结

本文提出了一种分层解耦自注意力网络（HDSA），通过将对话行为建模为多层图中的根到叶路径，实现可扩展的、语义可控的响应生成。通过将注意力头解耦以对应对话行为图中的特定节点，HDSA 在 MultiWOZ 数据集上取得了优异性能，自动评估和人工评估指标均有显著提升，证明其在基线模型之上具备更强的可控性和泛化能力。

ABSTRACT

Semantically controlled neural response generation on limited-domain has achieved great performance. However, moving towards multi-domain large-scale scenarios are shown to be difficult because the possible combinations of semantic inputs grow exponentially with the number of domains. To alleviate such scalability issue, we exploit the structure of dialog acts to build a multi-layer hierarchical graph, where each act is represented as a root-to-leaf route on the graph. Then, we incorporate such graph structure prior as an inductive bias to build a hierarchical disentangled self-attention network, where we disentangle attention heads to model designated nodes on the dialog act graph. By activating different (disentangled) heads at each layer, combinatorially many dialog act semantics can be modeled to control the neural response generation. On the large-scale Multi-Domain-WOZ dataset, our model can yield a significant improvement over the baselines on various automatic and human evaluation metrics.

研究动机与目标

为解决多领域对话响应生成中的可扩展性问题，即对话行为组合的组合爆炸问题，该问题阻碍了模型的泛化能力。
通过利用对话行为之间的结构关系，提升低资源或未见对话行为组合下的泛化能力并降低样本复杂度。
设计一种神经架构，将对话行为结构显式编码为归纳偏置，以提升语义控制能力和可解释性。
在大规模多领域对话数据集（如 MultiWOZ）上实现优异性能，同时保持生成响应的高可控性和连贯性。

提出的方法

构建一个多层分层图，其中对话行为表示为根到叶的路径，节点对应领域、动作和槽位。
设计一种分层解耦自注意力（HDSA）网络，其中每个注意力头绑定到对话行为图中的特定节点。
在训练和推理过程中，仅激活与给定对话行为路径对应的注意力头，实现精确的语义控制。
每层使用开关机制，根据对话行为动态激活注意力头，实现在不共享无关行为参数的前提下进行组合控制。
将图结构作为归纳偏置引入 Transformer 架构，替代传统的对话行为向量嵌入表示。
使用交叉熵损失端到端训练模型进行响应生成，对话行为路径引导网络中的注意力流动。

实验结果

研究问题

RQ1对话行为的分层图表示是否能降低样本复杂度并提升多领域对话系统的泛化能力？
RQ2解耦注意力头在不引起参数量指数增长的情况下，能否有效建模复杂且结构化的对话行为语义？
RQ3将对话行为结构作为归纳偏置是否能带来相较于标准序列到序列模型更好的响应连贯性与可控性？
RQ4在低资源设置下，该方法在未见对话行为组合上的泛化能力如何？

主要发现

HDSA 在 MultiWOZ 数据集上的响应一致性人工偏好得分为 55.4%，显著优于 SC-LSTM（32.8%）和 Transformer-in（49.8%）。
模型在连贯性方面的人工偏好得分为 44.8%，远超 SC-LSTM 的 36.1%，表明其与对话历史的对齐性更好。
在自动评估指标上，HDSA 在 BLEU、ROUGE 和 FID 上均优于基线模型，尤其在少样本设置下（如 3-shot 对话行为）提升最为显著。
分层图表示将对话行为表示的指数级成本降低至近线性，实现了复杂行为组合的可扩展建模。
人工评估确认，HDSA 的响应与给定对话行为在语义上更加一致，可控性评估中匹配率达到 90%。
该模型展现出强大的泛化能力，由于对话行为图提供的结构归纳偏置，其在未见测试样本上表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。