QUICK REVIEW

[论文解读] Learning Semantic Textual Similarity from Conversations

Yinfei Yang, Steve Yuan|arXiv (Cornell University)|Apr 20, 2018

Topic Modeling参考文献 21被引用 31

一句话总结

本文提出了一种新颖的无监督方法，通过训练模型从输入话语中预测对话回复，来学习句子级别的语义文本相似度。该模型在Reddit对话数据上进行预训练，并使用SNLI自然语言蕴含数据进行微调，在STS基准测试中达到最先进性能，在SemEval CQA问题相似度任务中也取得具有竞争力的结果，表明回复预测能隐式捕捉丰富的语义表征。

ABSTRACT

We present a novel approach to learn representations for sentence-level semantic similarity using conversational data. Our method trains an unsupervised model to predict conversational input-response pairs. The resulting sentence embeddings perform well on the semantic textual similarity (STS) benchmark and SemEval 2017's Community Question Answering (CQA) question similarity subtask. Performance is further improved by introducing multitask training combining the conversational input-response prediction task and a natural language inference task. Extensive experiments show the proposed model achieves the best performance among all neural models on the STS benchmark and is competitive with the state-of-the-art feature engineered and mixed systems in both tasks.

研究动机与目标

开发一种学习通用句子嵌入的方法，以捕捉语义相似度，而无需依赖监督的STS标注。
探究对话数据是否可作为学习鲁棒句子表征的预训练目标。
评估这些表征在零样本迁移至语义文本相似度和问题相似度任务中的有效性。
通过结合对话回复预测与自然语言蕴含的多任务学习，提升性能。

提出的方法

该模型使用共享编码器将输入和回复句子嵌入为固定长度向量，并采用点积评分机制从候选回复中预测正确回复。
在回复嵌入上应用前馈网络，以建模输入与回复之间的语义差异，从而提高预测准确率。
评估了两种编码器架构：深度平均网络（DAN）和Transformer模型，实验结果表明后者表现更优。
该模型在Reddit对话数据上进行预训练，采用对比学习目标与批量负样本，其中每个回复对于其输入为正样本，对于批次中其他样本为负样本。
多任务训练将对话回复预测任务与SNLI数据集上的监督自然语言蕴含（NLI）任务相结合，以增强泛化能力。
通过在STS和CQA任务上使用余弦相似度评估句子嵌入，无需额外交互或上下文特征。

实验结果

研究问题

RQ1对话数据能否作为预训练目标，用于学习可泛化至语义文本相似度的句子嵌入？
RQ2仅在对话数据上训练的模型与经过NLI数据微调的模型在STS和CQA任务上的表现如何比较？
RQ3从无监督对话数据中学到的表征在多大程度上可迁移到零样本语义相似度任务？
RQ4结合对话数据与NLI数据的多任务学习是否优于单独使用任一目标？

主要发现

仅使用Reddit数据训练的模型在STS基准测试中达到皮尔逊相关系数0.85，表明其在语义相似度任务上具有强大的零样本性能。
Reddit+SNLI多任务模型在STS基准测试中达到神经网络模型的最先进性能，超越了仅在NLI数据上训练的模型。
在SemEval 2017 CQA子任务B中，Reddit+SNLI模型达到MAP 47.42，优于官方第一名系统（SimBow-primary，MAP 47.22），且未进行任何任务特定调优。
在使用仅40%的Reddit训练数据后，STS性能即趋于稳定，表明该模型能以极少的领域内数据高效适应特定领域任务。
在所有实验中，Transformer编码器均优于DAN和LSTM-based模型，证实其在该任务中的有效性。
该模型表明，无监督对话回复预测能隐式捕捉语义相似度，这由预测回复与语义相似输入之间的高相关性所证实。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。