[论文解读] Sentence Similarity Learning by Lexical Decomposition and Composition
论文提出一个模型,将词向量分解为相似部分和不相似部分,使用语义匹配,然后通过两通道 CNN 将它们组合以预测句子相似度,在答案句选择任务上达到最先进的结果,在同义句识别任务上具有竞争力。
Most conventional sentence similarity methods only focus on similar parts of two input sentences, and simply ignore the dissimilar parts, which usually give us some clues and semantic meanings about the sentences. In this work, we propose a model to take into account both the similarities and dissimilarities by decomposing and composing lexical semantics over sentences. The model represents each word as a vector, and calculates a semantic matching vector for each word based on all words in the other sentence. Then, each word vector is decomposed into a similar component and a dissimilar component based on the semantic matching vector. After this, a two-channel CNN model is employed to capture features by composing the similar and dissimilar components. Finally, a similarity score is estimated over the composed feature vectors. Experimental results show that our model gets the state-of-the-art performance on the answer sentence selection task, and achieves a comparable result on the paraphrase identification task.
研究动机与目标
- 通过用上下文感知的嵌入表示单词来弥合词汇差距。
- 通过分解语义组成以在多个粒度层次(词、短语、句法)捕捉相似性。
- 明确建模句子对中的不相似部分以改善相似性评估。
- 通过基于 CNN 的特征组合将相似和不相似组件结合起来以预测相似性。
提出的方法
- 使用预训练的 word2vec 嵌入将每个单词表示为 300 维向量。
- 通过聚合对另一句子中单词的相似性(全局、局部或基于最大值)来计算每个单词的语义匹配向量,如匹配函数所示。
- 使用刚性、线性或正交方案将每个单词向量分解为相似分量和不相似分量。
- 将相似分量矩阵和不相似分量矩阵输入到具有一元/二元/三元过滤器的双通道 CNN,以产生特征向量。
- 将两个特征向量连接起来,并应用线性-sigmoid 相似性预测器。
- 通过 Adam 优化以最大化似然进行端到端训练。
实验结果
研究问题
- RQ1如何有效建模两句之间的相似性和不相似性?
- RQ2是否可以通过上下文感知的单词表示和语义匹配来弥合词汇差距?
- RQ3将单词分解为相似部分和不相似部分是否比单通道表示在句子相似性任务上有改进?
- RQ4对分解后的分量使用多粒度 CNN 特征是否在问答和短语同义数据集上优于现有模型?
主要发现
- 在 QASent 数据集的答案句选择任务上达到 state-of-the-art 的 MAP。
- 在 QASent 上实现有竞争力的 MRR,在 WikiQA 上表现出色,相较于基于 CNN 的和基于注意力的模型。
- 通过分解和双通道 CNN 同时利用相似性和不相似性来实现对若干基线的超越。
- 表明局部语义匹配(local-w)和正交分解能够带来鲁棒的性能。
- 表明高于三元组的高阶 n-gram 并不总是提升性能,在他们的设置中,三元过滤器提供了最佳结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。