[论文解读] Natural Language Inference over Interaction Space
本文提出 Interactive Inference Network (IIN) 及其密集化实现 DIIN,将跨句子交互建模为一个交互张量;DIIN 在 SNLI 与 MultiNLI 上实现最先进的 NLI 性能,并在 Quora 口碑对义识别上取得强劲结果。
Natural Language Inference (NLI) task requires an agent to determine the logical relationship between a natural language premise and a natural language hypothesis. We introduce Interactive Inference Network (IIN), a novel class of neural network architectures that is able to achieve high-level understanding of the sentence pair by hierarchically extracting semantic features from interaction space. We show that an interaction tensor (attention weight) contains semantic information to solve natural language inference, and a denser interaction tensor contains richer semantic information. One instance of such architecture, Densely Interactive Inference Network (DIIN), demonstrates the state-of-the-art performance on large scale NLI copora and large-scale NLI alike corpus. It's noteworthy that DIIN achieve a greater than 20% error reduction on the challenging Multi-Genre NLI (MultiNLI) dataset with respect to the strongest published system.
研究动机与目标
- 将使用交互空间来捕捉跨句子高阶语义用于 NLI。
- 提出 Interactive Inference Network (IIN) 框架以从交互空间进行分层特征提取。
- 实例化一个密集交互变体(DIIN),利用交互张量上的卷积特征提取器。
- 展示在 SNLI 和 MultiNLI 数据集的最先进结果,以及在对句对任务的竞争性能。
- 提供消融分析以识别 DIIN 各个组件的贡献。
提出的方法
- 构造一个交互张量 I,通过前提与假设表示之间逐词交互。
- 使用编码层,结合 highway networks(高速通道网络)和自注意力来生成 refined 的前提 P^enc 与假设 H^enc 表征。
- 计算交互张量 I_ij = beta(P̃_i, H̃_j) 采用选定的 beta(如逐元素乘积)。
- 对交互张量应用 DenseNet 基于的特征提取器,以学习高级语义特征。
- 使用线性分类器解码得到蕴含/中性/矛盾的预测。
- 在 DIIN 中,增加单词表示的词嵌入、字符特征以及句法/精确匹配特征;用 Adadelta/SGD 调度训练;使用 dropout 和 L2 正则化;在 DenseNet 处理前对 I 使用 1x1 卷积进行降维。
实验结果
研究问题
- RQ1通过在交互张量上建模跨句子交互,是否能提升 NLI 性能,相较于仅使用句子编码的方法?
- RQ2在交互空间上使用密集连接的卷积特征提取器是否能捕捉到更丰富的 NLI 语义特征?
- RQ3精确匹配和字符/句法特征在交互空间框架中的贡献有多大?
- RQ4与此前的最先进模型相比,DIIN 在 SNLI、MultiNLI 和 Quora 口碑任务上的表现如何?
- RQ5消融研究能否揭示自注意力、融合门和密集交互张量的作用?
主要发现
| 模型 | 匹配 | 不匹配 |
|---|---|---|
| BiLSTM (Williams et al., 2017) | 67.0 | 67.6 |
| InnerAtt (Balazs et al., 2017) | 72.1 | 72.1 |
| ESIM (Williams et al., 2017) | 72.3 | 72.1 |
| Gated-Att BiLSTM (Chen et al., 2017b) | 73.2 | 73.6 |
| Shorcut-Stacked encoder (Nie & Bansal, 2017) | 74.6 | 73.6 |
| DIIN | 78.8 | 77.8 |
| InnerAtt (ensemble) | 72.2 | 72.8 |
| Gated-Att BiLSTM (ensemble) | 74.9 | 74.9 |
| DIIN (ensemble) | 80.0 | 78.7 |
- DIIN 在 MultiNLI(匹配组 78.8,非匹配组 77.8)和 SNLI(集成:88.9)上达到了最先进的性能(按报告的结果)。
- 在 MultiNLI 上,DIIN 以单模型(78.8/77.8)和集成(80.0/78.7)结果超越了以往方法。
- 在 SNLI 上,DIIN 达到 88.0(单模型)和 88.9(集成)的准确率。
- 在 Quora 对句对检测中,DIIN 达到 89.06 测试准确率(单模型)和 89.84(集成)。
- 消融显示精确匹配特征、卷积结构、编码层、自注意力和融合门都对性能有贡献;移除组件会降低结果。
- 可视化表明交互张量在各通道捕捉到多样的语义模式,支持交互空间包含丰富的语义信息的主张。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。