[论文解读] Transforming Question Answering Datasets Into Natural Language Inference Datasets
本文通过 QA2D 转换自动将 QA 数据转换为大规模的 NLI 数据集,基于 QA-NLI 获得超过 50 万个样本,并训练一个能跨 QA 领域泛化的神经 QA2D 模型。
Existing datasets for natural language inference (NLI) have propelled research on language understanding. We propose a new method for automatically deriving NLI datasets from the growing abundance of large-scale question answering datasets. Our approach hinges on learning a sentence transformation model which converts question-answer pairs into their declarative forms. Despite being primarily trained on a single QA dataset, we show that it can be successfully applied to a variety of other QA resources. Using this system, we automatically derive a new freely available dataset of over 500k NLI examples (QA-NLI), and show that it exhibits a wide range of inference phenomena rarely seen in previous NLI datasets.
研究动机与目标
- 通过利用丰富的 QA 数据集来推动 NLI 的多样化。
- 提出一种完全自动化的 QA2D 转换,从 QA 数据中创建蕴含/非蕴含的 NLI 对。
- 证明基于 QA 的 NLI 覆盖比现有数据集更广泛的推理现象。
- 提供一个可扩展的流水线,结合基于规则、众包和神经 QA2D 组件,以生成高质量的陈述句。
提出的方法
- 定义 QA2D:将一个 QA 对 (段落 P、问题 Q、答案 A) 转换为一个陈述 D,即 A 对 Q 的回答的改写。
- 在 A 正确时构建蕴含的 NLI 对 (P, D);在 A 错误或 Q 不可回答时构建非蕴含。
- 开发三种 QA2D 方法:基于规则、众包和神经序列模型。
- 通过两种设置对 Gold 陈述进行众包(从头编写或对基于规则的输出进行后编辑)以训练一个神经 QA2D 模型。
- 使用 Q 和 A 作为输入,训练一个具有拷贝机制和 GloVe 嵌入的神经编码器-解码器模型来生成 D。
实验结果
研究问题
- RQ1基于 QA 的陈述能否在不同 QA 数据集上产生有效的 NLI 对?
- RQ2神经 QA2D 模型对 SQuAD 以外的 QA 数据集的泛化能力如何?
- RQ3自动化 QA2D 生成的 NLI 数据集是否比传统 NLI 语料库揭示更广泛的推理现象?
- RQ4QA2D 的质量对 NLI 学习和标注伪影有何影响?
主要发现
- QA2D 能将 QA 示例转换为蕴含和非蕴含的 NLI 对,从而实现大规模的 NLI 构建。
- 在跨数据集的 BLEU 和 exact-match 指标上,神经 QA2D 模型始终优于基于规则的系统。
- 与基于规则的方法相比,神经模型在 BLEU 和 exact-match 得分上获得更高的平均提升(约 2.6 BLEU 和 约 6.2% 准确率)。
- 来源于五个 QA 来源的 QA-NLI 数据集包含超过 50 万个 NLI 示例,具有多样的推理现象,包括多句推理和元层推理。
- QA-NLI 减少了在 SNLI/MultiNLI 中观察到的一些标注伪影,并且在不同领域(电影剧情、新闻、维基百科、考试)呈现出不同的推理类型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。