QUICK REVIEW
[论文解读] Stochastic Answer Networks for Natural Language Inference
Xiaodong Liu, Kevin Duh|arXiv (Cornell University)|Apr 21, 2018
Topic Modeling参考文献 24被引用 51
一句话总结
论文介绍了随机答案网络(SAN),它对自然语言推理执行多步推理,在多轮中 refining 一个隐藏状态,并在SNLI、MultiNLI、SciTail和Quora Question Pairs上取得了最新的最好结果。
ABSTRACT
We propose a stochastic answer network (SAN) to explore multi-step inference strategies in Natural Language Inference. Rather than directly predicting the results given the inputs, the model maintains a state and iteratively refines its predictions. Our experiments show that SAN achieves the state-of-the-art results on three benchmarks: Stanford Natural Language Inference (SNLI) dataset, MultiGenre Natural Language Inference (MultiNLI) dataset and Quora Question Pairs dataset.
研究动机与目标
- 激发自然语言推理(NLI)超越单步预测的多步、迭代推理。
- 提出一种随机答案网络(SAN)架构,在推理步骤中维持并更新状态。
- 证明 SAN 相对于单步基线的改进,并在多个基准测试上达到最新的结果。
- 展示鲁棒性并分析推理步数和随机预测 dropout 的影响。
提出的方法
- 四层 SAN 架构:词汇编码、上下文编码、记忆生成,以及一个迭代的答案模块。
- 词汇层将词嵌入和字符嵌入拼接,形成前提 E^p 和假设 E^h。
- 上下文编码层使用两层 BiLSTM,并应用 maxout,生成 C^p 和 C^h。
- 记忆层通过点积注意力和 BiLSTM 构建工作记忆,产生 M^p 和 M^h。
- 答案模块使用门控循环单元(GRU)对状态 s_t 进行多步更新,导出每步预测 P_t^r,并对它们求平均以得到最终的 P^r。
- 训练在最终平均阶段使用随机预测 dropout 以提高鲁棒性。
实验结果
研究问题
- RQ1SAN 的多步推理是否相对于单步基线在 NLI 上有提升?
- RQ2SAN 在标准 NLI 基准测试(SNLI、MultiNLI、SciTail、Quora)上的表现如何?
- RQ3SAN 的最优推理步数(T)是多少?它如何影响性能?
- RQ4引入随机预测 dropout 如何影响模型鲁棒性和性能?
- RQ5将 SAN 方法与预训练上下文嵌入或多任务学习结合时,是否具有泛化性?
主要发现
- SAN 在所有四个数据集(SNLI、MultiNLI、SciTail、Quora)上始终优于单步基线。
- 在 SciTail 上,SAN 相较于单步模型有显著提升(开发集:85.46 vs 89.35,增幅 +3.89)。
- SAN 在 SciTail 和 Quora Question Pairs 测试集上达到最新的结果,并在 SNLI 和 MultiNLI 上保持竞争力,且无需大量外部知识或预训练嵌入。
- 使用 5 步推理配置在 SciTail 开发集和可比基准上获得最佳结果,而更多步数并未持续提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。