Skip to main content
QUICK REVIEW

[论文解读] Shortcut-Stacked Sentence Encoders for Multi-Domain Inference

Yixin Nie, Mohit Bansal|arXiv (Cornell University)|Aug 7, 2017
Topic Modeling参考文献 13被引用 37
一句话总结

本文提出了一种简单但有效的快捷连接堆叠双向LSTM句子编码器,用于多领域自然语言蕴涵任务,其中每一层通过快捷连接接收来自所有前序层及词嵌入的输入,从而实现更深层次的表征学习。该模型在EMNLP RepEval 2017多领域自然语言蕴涵共享任务中以非集成单模型身份取得最先进性能,并在SNLI数据集上为基于编码的模型设立了新的SOTA记录。

ABSTRACT

We present a simple sequential sentence encoder for multi-domain natural language inference. Our encoder is based on stacked bidirectional LSTM-RNNs with shortcut connections and fine-tuning of word embeddings. The overall supervised model uses the above encoder to encode two input sentences into two vectors, and then uses a classifier over the vector combination to label the relationship between these two sentences as that of entailment, contradiction, or neural. Our Shortcut-Stacked sentence encoders achieve strong improvements over existing encoders on matched and mismatched multi-domain natural language inference (top non-ensemble single-model result in the EMNLP RepEval 2017 Shared Task (Nangia et al., 2017)). Moreover, they achieve the new state-of-the-art encoding result on the original SNLI dataset (Bowman et al., 2015).

研究动机与目标

  • 在不依赖注意力机制或句法结构的前提下,提升多领域自然语言蕴涵任务中的句子编码性能。
  • 探究更深、具有快捷连接的biLSTM架构是否能增强在多样化领域上的泛化能力。
  • 通过一种简单且参数高效的架构,在自然语言蕴涵任务中实现最先进性能。

提出的方法

  • 该模型采用堆叠的双向LSTM层,并通过快捷连接将所有前序层的输出和原始词嵌入输入到每一层后续层。
  • 每个双向LSTM层在时间步t的输入是词嵌入与所有先前层输出的拼接,从而实现丰富的梯度流动与特征复用。
  • 通过在最后一层双向LSTM隐藏状态上进行最大池化,获得最终的句子表征。
  • 在训练过程中端到端微调词嵌入,以适应NLI任务。
  • 采用共享的Siamese风格编码器将前提句和假设句分别编码为固定长度的向量。
  • 对两个句子向量的拼接结果应用两层ReLU分类器,实现三分类(蕴涵、矛盾、中性)。

实验结果

研究问题

  • RQ1更深、具有快捷连接的biLSTM架构是否能在多领域自然语言蕴涵任务中超越标准单层或堆叠biLSTM编码器?
  • RQ2在biLSTM层之间引入类似残差的快捷连接是否能提升模型在领域内和领域外NLI任务上的泛化性能?
  • RQ3在多领域设置下,对预训练词嵌入进行端到端微调能在多大程度上提升模型性能?
  • RQ4在SNLI和Multi-NLI数据集上,该提出的编码器在准确率和参数效率方面与最先进模型相比如何?

主要发现

  • 与单层biLSTM-Max编码器相比,快捷连接堆叠biLSTM模型在Multi-NLI匹配和不匹配测试集上实现了3%的准确率提升。
  • 该模型在EMNLP RepEval 2017 Multi-NLI共享任务中取得了非集成单模型的最高成绩。
  • 在SNLI数据集上,该模型超越了所有先前基于编码的模型,创下了新的SOTA记录。
  • 消融实验表明,与标准3层堆叠biLSTM相比,快捷连接贡献了约1.5%的准确率增益。
  • 将快捷连接替换为残差连接后,模型参数量减少了约20%,同时保持了相近的性能表现,其中970万参数、300维的模型在SNLI测试集上达到了85.7%的准确率。
  • 词嵌入的微调在领域内和跨领域设置下均带来了持续的性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。