[论文解读] Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information
{
Sentence matching is widely used in various natural language tasks such as natural language inference, paraphrase identification, and question answering. For these tasks, understanding logical and semantic relationship between two sentences is required but it is yet challenging. Although attention mechanism is useful to capture the semantic relationship and to properly align the elements of two sentences, previous methods of attention mechanism simply use a summation operation which does not retain original features enough. Inspired by DenseNet, a densely connected convolutional network, we propose a densely-connected co-attentive recurrent neural network, each layer of which uses concatenated information of attentive features as well as hidden features of all the preceding recurrent layers. It enables preserving the original and the co-attentive feature information from the bottommost word embedding layer to the uppermost recurrent layer. To alleviate the problem of an ever-increasing size of feature vectors due to dense concatenation operations, we also propose to use an autoencoder after dense concatenation. We evaluate our proposed architecture on highly competitive benchmark datasets related to sentence matching. Experimental results show that our architecture, which retains recurrent and attentive features, achieves state-of-the-art performances for most of the tasks.
研究动机与目标
- 提升两句话之间的语义理解,以便于自然语言推理、paraphrase identification、以及答案选择等任务
- 提出一个更深的密集连接递归结构,在各层中同时保留递归特征和共注意特征
- 通过拼接将共注意信息整合,以保留句子之间丰富的交互
- 使用自编码器瓶颈来控制特征增长,以在保持信息的同时维持可控的模型规模
提出的方法
- 通过连接可训练和固定词嵌入、字符级CNN特征以及一个精准匹配标志来构建词表示
- 堆叠基于BiLSTM的RNN层,采用密集连接,将所有前一层的输出拼接在一起
- 通过句子表示之间的余弦相似度为基础的注意力机制来计算共注意上下文向量,并通过密集拼接进行融合
- 对密集连接的递归特征和共注意特征应用逐步最大池化,以获得固定长度的句子表示
- 将句子表示与交互项(p, q, p+q, p−q, |p−q|)结合,并经过两个全连接层进行分类,训练目标为交叉熵损失和自编码器重构损失
- 使用自编码器作为瓶颈来压缩密集特征集并对训练进行正则化.
实验结果
研究问题
- RQ1在比更深的架构下,密集连接的递归和共注意信息如何提升语义句子匹配?
- RQ2通过密集拼接保留原始特征与共注意特征,是否在深层RNN中优于残差连接?
- RQ3自编码器瓶颈是否能够在维持或提升多个句对任务性能的同时有效地调控特征增长?
- RQ4混合可训练和固定词嵌入对整体性能有何影响?
主要发现
- DRCN 在 SNLI 和 MultiNLI 上达到竞争力或最先进的准确度,无需外部上下文化词表示。
- 在报道的结果中,Ensemble DRCN 在 SNLI 上达到 90.1%,超过了若干基线,且不需要外部知识。
- DRCN 在 Quora 改述识别(MAP 0.804,MRR 0.862;集成 0.830,0.908)上表现出色,并在 TrecQA 和 SelQA 的答案句子选择任务上设定新的最先进结果。
- 消融研究表明,密集连接和注意信息对性能至关重要,注意信息对语义匹配贡献显著。
- 引入 ELMo 或上下文嵌入进一步提升了 MultiNLI 的性能,表明与 DRCN 具有互补增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。