QUICK REVIEW

[论文解读] Stochastic Answer Networks for Natural Language Inference

Xiaodong Liu, Kevin Duh|arXiv (Cornell University)|Apr 21, 2018

Topic Modeling参考文献 24被引用 51

一句话总结

论文介绍了随机答案网络（SAN），它对自然语言推理执行多步推理，在多轮中 refining 一个隐藏状态，并在SNLI、MultiNLI、SciTail和Quora Question Pairs上取得了最新的最好结果。

ABSTRACT

We propose a stochastic answer network (SAN) to explore multi-step inference strategies in Natural Language Inference. Rather than directly predicting the results given the inputs, the model maintains a state and iteratively refines its predictions. Our experiments show that SAN achieves the state-of-the-art results on three benchmarks: Stanford Natural Language Inference (SNLI) dataset, MultiGenre Natural Language Inference (MultiNLI) dataset and Quora Question Pairs dataset.

研究动机与目标

激发自然语言推理（NLI）超越单步预测的多步、迭代推理。
提出一种随机答案网络（SAN）架构，在推理步骤中维持并更新状态。
证明 SAN 相对于单步基线的改进，并在多个基准测试上达到最新的结果。
展示鲁棒性并分析推理步数和随机预测 dropout 的影响。

提出的方法

四层 SAN 架构：词汇编码、上下文编码、记忆生成，以及一个迭代的答案模块。
词汇层将词嵌入和字符嵌入拼接，形成前提 E^p 和假设 E^h。
上下文编码层使用两层 BiLSTM，并应用 maxout，生成 C^p 和 C^h。
记忆层通过点积注意力和 BiLSTM 构建工作记忆，产生 M^p 和 M^h。
答案模块使用门控循环单元（GRU）对状态 s_t 进行多步更新，导出每步预测 P_t^r，并对它们求平均以得到最终的 P^r。
训练在最终平均阶段使用随机预测 dropout 以提高鲁棒性。

实验结果

研究问题

RQ1SAN 的多步推理是否相对于单步基线在 NLI 上有提升？
RQ2SAN 在标准 NLI 基准测试（SNLI、MultiNLI、SciTail、Quora）上的表现如何？
RQ3SAN 的最优推理步数（T）是多少？它如何影响性能？
RQ4引入随机预测 dropout 如何影响模型鲁棒性和性能？
RQ5将 SAN 方法与预训练上下文嵌入或多任务学习结合时，是否具有泛化性？

主要发现

SAN 在所有四个数据集（SNLI、MultiNLI、SciTail、Quora）上始终优于单步基线。
在 SciTail 上，SAN 相较于单步模型有显著提升（开发集：85.46 vs 89.35，增幅 +3.89）。
SAN 在 SciTail 和 Quora Question Pairs 测试集上达到最新的结果，并在 SNLI 和 MultiNLI 上保持竞争力，且无需大量外部知识或预训练嵌入。
使用 5 步推理配置在 SciTail 开发集和可比基准上获得最佳结果，而更多步数并未持续提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。