Skip to main content
QUICK REVIEW

[论文解读] Bilateral Multi-Perspective Matching for Natural Language Sentences

Zhiguo Wang, Wael Hamza|arXiv (Cornell University)|Feb 13, 2017
Topic Modeling参考文献 32被引用 118
一句话总结

BiMPM 使用 BiLSTMs 编码两句话,并在四个视角下实现双向匹配,在同义句识别、自然语言推断和答案句选择等任务上达到最新研究水平。

ABSTRACT

Natural language sentence matching is a fundamental technology for a variety of tasks. Previous approaches either match sentences from a single direction or only apply single granular (word-by-word or sentence-by-sentence) matching. In this work, we propose a bilateral multi-perspective matching (BiMPM) model under the "matching-aggregation" framework. Given two sentences $P$ and $Q$, our model first encodes them with a BiLSTM encoder. Next, we match the two encoded sentences in two directions $P ightarrow Q$ and $P \leftarrow Q$. In each matching direction, each time step of one sentence is matched against all time-steps of the other sentence from multiple perspectives. Then, another BiLSTM layer is utilized to aggregate the matching results into a fix-length matching vector. Finally, based on the matching vector, the decision is made through a fully connected layer. We evaluate our model on three tasks: paraphrase identification, natural language inference and answer sentence selection. Experimental results on standard benchmark datasets show that our model achieves the state-of-the-art performance on all tasks.

研究动机与目标

  • 通过解决方向性和粒度交互的局限性,激励并改进自然语言句子匹配(NLSM)。
  • 在匹配-聚合框架内提出一个双向、多视角的匹配架构。
  • 在同义句识别、自然语言推断和答案句选择上展示最新性能。

提出的方法

  • 在单词和字符表示后,用 BiLSTM 对句子进行编码。
  • 在 P→Q 和 Q→P 两个方向进行双向匹配,使用跨四种策略(全量、最大池化、注意力、最大注意力)的多视角余弦函数。
  • 用第二个 BiLSTM 对匹配向量进行聚合,得到固定长度的表示。
  • 用两层前馈网络和 softmax 进行标签预测。
  • 定义带有可训练权重 W 的多视角余弦函数,具有 l 个视角。
  • 采用 Adam 的端到端训练,使用交叉熵;固定预训练词嵌入。

实验结果

研究问题

  • RQ1双向(双方向)匹配是否能提升 NLSM 相对于单向方法的准确性?
  • RQ2在每个时间步引入多视角匹配是否能捕获句子之间更丰富的交互?
  • RQ3四种匹配策略如何对不同任务的整体性能产生贡献?
  • RQ4在标准自然语言处理基准上,将 BiMPM 与集成方法结合是否存在提升?

主要发现

  • BiMPM 在同义句识别、自然语言推断和答案句选择等标准基准上达到最新研究水平。
  • 增加多视角余弦匹配中的视角数 l 能提升性能,相较单一视角基线有显著提升。
  • 双向匹配(P→Q 与 Q→P)在同义句任务上比单向变体约高出 1 个百分点。
  • 去掉四种匹配策略中的任意一个(全量、最大池化、注意力、最大注意力)都会降低性能,表明它们的共同贡献。
  • 在同义句识别(Quora 数据集)上,BiMPM 的表现超过包括 L.D.C. 在内的多种基线,提升超过 2 个百分点。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。