Skip to main content
QUICK REVIEW

[论文解读] Stochastic Answer Networks for Natural Language Inference

Xiaodong Liu, Kevin Duh|arXiv (Cornell University)|Apr 21, 2018
Topic Modeling参考文献 24被引用 51
一句话总结

论文介绍了随机答案网络(SAN),它对自然语言推理执行多步推理,在多轮中 refining 一个隐藏状态,并在SNLI、MultiNLI、SciTail和Quora Question Pairs上取得了最新的最好结果。

ABSTRACT

We propose a stochastic answer network (SAN) to explore multi-step inference strategies in Natural Language Inference. Rather than directly predicting the results given the inputs, the model maintains a state and iteratively refines its predictions. Our experiments show that SAN achieves the state-of-the-art results on three benchmarks: Stanford Natural Language Inference (SNLI) dataset, MultiGenre Natural Language Inference (MultiNLI) dataset and Quora Question Pairs dataset.

研究动机与目标

  • 激发自然语言推理(NLI)超越单步预测的多步、迭代推理。
  • 提出一种随机答案网络(SAN)架构,在推理步骤中维持并更新状态。
  • 证明 SAN 相对于单步基线的改进,并在多个基准测试上达到最新的结果。
  • 展示鲁棒性并分析推理步数和随机预测 dropout 的影响。

提出的方法

  • 四层 SAN 架构:词汇编码、上下文编码、记忆生成,以及一个迭代的答案模块。
  • 词汇层将词嵌入和字符嵌入拼接,形成前提 E^p 和假设 E^h。
  • 上下文编码层使用两层 BiLSTM,并应用 maxout,生成 C^p 和 C^h。
  • 记忆层通过点积注意力和 BiLSTM 构建工作记忆,产生 M^p 和 M^h。
  • 答案模块使用门控循环单元(GRU)对状态 s_t 进行多步更新,导出每步预测 P_t^r,并对它们求平均以得到最终的 P^r。
  • 训练在最终平均阶段使用随机预测 dropout 以提高鲁棒性。

实验结果

研究问题

  • RQ1SAN 的多步推理是否相对于单步基线在 NLI 上有提升?
  • RQ2SAN 在标准 NLI 基准测试(SNLI、MultiNLI、SciTail、Quora)上的表现如何?
  • RQ3SAN 的最优推理步数(T)是多少?它如何影响性能?
  • RQ4引入随机预测 dropout 如何影响模型鲁棒性和性能?
  • RQ5将 SAN 方法与预训练上下文嵌入或多任务学习结合时,是否具有泛化性?

主要发现

  • SAN 在所有四个数据集(SNLI、MultiNLI、SciTail、Quora)上始终优于单步基线。
  • 在 SciTail 上,SAN 相较于单步模型有显著提升(开发集:85.46 vs 89.35,增幅 +3.89)。
  • SAN 在 SciTail 和 Quora Question Pairs 测试集上达到最新的结果,并在 SNLI 和 MultiNLI 上保持竞争力,且无需大量外部知识或预训练嵌入。
  • 使用 5 步推理配置在 SciTail 开发集和可比基准上获得最佳结果,而更多步数并未持续提升性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。