QUICK REVIEW

[论文解读] A large annotated corpus for learning natural language inference

Samuel R. Bowman, Gabor Angeli|arXiv (Cornell University)|Aug 21, 2015

Multimodal Machine Learning Applications参考文献 29被引用 465

一句话总结

本文介绍了斯坦福自然语言蕴涵（SNLI）语料库，这是一个大规模、人工标注的数据集，包含570,152对句子，分别标注为蕴含、矛盾或中性关系。该语料库使神经网络模型在自然语言蕴涵任务中达到最先进性能，通过迁移学习在SICK等基准数据集上实现优异结果，表明大规模高质量数据可支持强大且通用的语义表征。

ABSTRACT

Understanding entailment and contradiction is fundamental to understanding natural language, and inference about entailment and contradiction is a valuable testing ground for the development of semantic representations. However, machine learning research in this area has been dramatically limited by the lack of large-scale resources. To address this, we introduce the Stanford Natural Language Inference corpus, a new, freely available collection of labeled sentence pairs, written by humans doing a novel grounded task based on image captioning. At 570K pairs, it is two orders of magnitude larger than all other resources of its type. This increase in scale allows lexicalized classifiers to outperform some sophisticated existing entailment models, and it allows a neural network-based model to perform competitively on natural language inference benchmarks for the first time.

研究动机与目标

为解决当前缺乏大规模、高质量、人工标注的自然语言蕴涵（NLI）语料库，以支持数据密集型模型的训练。
提供一种资源，以支持分布式表征学习在语义推理任务中的评估。
实现神经网络模型在NLI任务中良好泛化能力的训练。
减少先前NLI语料库中存在的标注噪声和指代歧义。
通过实证性、以学习为中心的方法，建立评估领域通用语义表征的基准。

提出的方法

从描述图像的图像字幕中收集570,152对句子，由人工标注者在具身化、自然主义的语境下完成。
采用结构化标注任务，标注者根据图像字幕将句子对标注为蕴含、矛盾或中性关系。
通过每例额外四次判断的验证阶段，实现98%的三名标注者一致率和58%的五名标注者一致率。
在SNLI语料库上训练长短期记忆（LSTM）神经网络模型，以学习句子表征并执行NLI任务。
通过迁移学习，使用SNLI预训练的权重初始化新模型，并在SICK基准数据集上进行微调。
使用AdaDelta优化方法，并保留迁移学习率累加器，以在微调过程中保留知识。

实验结果

研究问题

RQ1大规模人工标注的NLI语料库是否能显著提升神经网络模型在自然语言蕴涵任务中的性能？
RQ2在大规模多样化NLI语料库上学习的表征，能在多大程度上迁移到较小的现有基准数据集（如SICK）上？
RQ3在标准NLI基准测试中，基于SNLI训练的神经网络模型是否能超越或匹配手工设计模型的性能？
RQ4在标注一致性和噪声方面，SNLI语料库的质量和规模与现有NLI数据集相比如何？
RQ5当在大规模高质量语料库上训练时，简单的词汇化分类器能否实现与更复杂模型相当的性能？

主要发现

SNLI语料库包含570,152对句子，其规模比同类先前资源高出两个数量级。
基于特征的分类器和基于LSTM的神经网络在NLI基准测试中均表现出竞争力。
从SNLI迁移到SICK数据集的迁移学习方法在测试集上达到80.8%的准确率，是目前未经增强的神经网络模型报告的最佳结果。
仅在SNLI上训练的模型在SICK上表现不佳，表明由于标注风格或文本体裁差异，存在领域偏移。
SNLI语料库使神经网络模型在SICK基准测试中的性能接近人类标注者间的一致性上限（84%）。
高一致率（三名标注者98%，五名标注者58%）证实了SNLI标注的高质量和可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。