QUICK REVIEW

[论文解读] Attention with Intention for a Neural Network Conversation Model

Kaisheng Yao, Geoffrey Zweig|arXiv (Cornell University)|Oct 29, 2015

Topic Modeling参考文献 15被引用 96

一句话总结

本文提出了一种注意力与意图（AWI）模型，这是一种神经序列到序列框架，通过三个循环网络整合意图与注意力机制：编码器用于输入编码，意图RNN用于建模话语层面的目标，解码器则基于意图条件化的注意力机制生成语境连贯的回复。该模型实现了无需人工标注的端到端训练，并生成自然、连贯的对话回复。

ABSTRACT

In a conversation or a dialogue process, attention and intention play intrinsic roles. This paper proposes a neural network based approach that models the attention and intention processes. It essentially consists of three recurrent networks. The encoder network is a word-level model representing source side sentences. The intention network is a recurrent network that models the dynamics of the intention process. The decoder network is a recurrent network produces responses to the input from the source side. It is a language model that is dependent on the intention and has an attention mechanism to attend to particular source side words, when predicting a symbol in the response. The model is trained end-to-end without labeling data. Experiments show that this model generates natural responses to user inputs.

研究动机与目标

开发一种能够捕捉对话中话语层面意图与注意力动态的神经对话模型。
实现无需人工标注的端到端训练，减少对昂贵人工标注数据的依赖。
通过显式建模意图作为动态状态以影响注意力，提升响应的连贯性与自然性。
将理论上的语篇结构——意图与注意力——整合进深度学习对话框架中。

提出的方法

模型使用双向LSTM编码器将输入话语编码为上下文向量。
意图RNN处理对话历史，生成表示当前话语目标的动态意图状态。
解码器LSTM自回归地生成响应，其对源输入的注意力机制受意图状态条件化。
注意力权重通过解码器隐藏状态与编码器状态之间的点积机制计算，并由意图向量调制。
整个模型使用随机梯度下降和响应生成的交叉熵损失进行端到端训练。
超参数包括50或200个隐藏单元、25维对齐维度，以及单层LSTM，学习率根据开发集困惑度进行衰减。

实验结果

研究问题

RQ1将意图与注意力分别建模为相互作用的组件，是否能提升对话回复质量？
RQ2神经对话模型能否在无需人工标注或外部知识的情况下生成连贯、自然的回复？
RQ3将注意力条件化于意图状态，对回复的相关性与流畅性有何影响？
RQ4将话语层面结构（意图）引入模型，是否能优于固定上下文的基线模型？

主要发现

使用200个隐藏单元的AWI模型在测试集上的困惑度为22.1，显著低于50个隐藏单元的模型（30.8），表明语言建模性能更优。
模型生成了流畅且语境相关的回复，定性示例显示意图流（如问题描述、解决方案、确认）被清晰体现。
受意图RNN输出条件化的注意力机制，使解码器能够选择性关注相关源词，例如在故障排除过程中关注'virus'。
与未引入意图或注意力机制的基线序列到序列模型相比，该模型在定性连贯性与困惑度方面均有提升。
成功实现了无需人工标注的端到端训练，支持自监督对话学习的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。