QUICK REVIEW

[论文解读] DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations

John Giorgi, Osvald Nitski|arXiv (Cornell University)|Jun 5, 2020

Topic Modeling参考文献 78被引用 97

一句话总结

DeCLUTR 引入了一种自监督、对比学习目标，通过对来自附近文本的锚点-正样本区间进行对比来学习通用句子嵌入，扩展 MLM 预训练以产生强大的无监督句子表示。

ABSTRACT

Sentence embeddings are an important component of many natural language processing (NLP) systems. Like word embeddings, sentence embeddings are typically learned on large text corpora and then transferred to various downstream tasks, such as clustering and retrieval. Unlike word embeddings, the highest performing solutions for learning sentence embeddings require labelled data, limiting their usefulness to languages and domains where labelled data is abundant. In this paper, we present DeCLUTR: Deep Contrastive Learning for Unsupervised Textual Representations. Inspired by recent advances in deep metric learning (DML), we carefully design a self-supervised objective for learning universal sentence embeddings that does not require labelled training data. When used to extend the pretraining of transformer-based language models, our approach closes the performance gap between unsupervised and supervised pretraining for universal sentence encoders. Importantly, our experiments suggest that the quality of the learned embeddings scale with both the number of trainable parameters and the amount of unlabelled training data. Our code and pretrained models are publicly available and can be easily adapted to new domains or used to embed unseen text.

研究动机与目标

在没有标注数据的情况下，激发学习通用句子嵌入。
设计一种受深度度量学习 (DML) 启发的自监督目标以训练句子编码器。
展示将对比学习与 MLM 预训练相结合能够改善下游的句子任务。
展示随模型规模和数据量的扩展表现。
提供用于领域迁移的开源代码和预训练模型。

提出的方法

使用变换器编码器 f(·) 和均值池化池化器 g(·) 来获得固定长度的嵌入。
使用对比 NT-Xent 损失进行训练，将锚点和正样本区间拉近，同时将小批量中的其他区间视为负样本。
从文档中的邻近文本抽样锚点和正样本区间；锚点区间比正样本更长，以实现局部与全局视图的学习。
在现有的 MLM 模型（DistilRoBERTa 或 RoBERTa-base）上，结合 MLM 损失继续以所提对比目标进行预训练。
区间抽样使用 β 分布长度来覆盖从句子到段落长度的文本，锚点和正样本来自同一文档。
使用 SentEval 在 18 个下游任务和 10 个探测任务上进行评估，以评估性能与语言属性。
开源代码和预训练模型已在项目仓库发布。

实验结果

研究问题

RQ1是否可以通过自监督、对比目标在没有标注数据的情况下产生通用句子嵌入？
RQ2将对比目标扩展到 MLM 预训练，与基线预训练模型相比，对下游句子任务有何影响？
RQ3哪些架构选择和数据规模能够优化学习到的嵌入质量？
RQ4所学习的嵌入是否保留通过探测任务衡量的语言信息？

主要发现

DeCLUTR-base 与 DeCLUTR-small 预训练模型在平均下游 SentEval 性能上显著优于其基础的预训练变换器（例如，DeCLUTR-base Avg 79.10 vs Transformer-base Avg 72.19）。
在许多下游任务上，DeCLUTR-base 在无标注数据的情况下就能达到或超过有监督/半监督基线。
在探测任务上，DeCLUTR 模型保留的语言信息可与基础预训练模型相当，这与某些有监督微调的替代模型不同。
性能随模型大小和未标注训练数据量的增加而提升，表明更大模型或更多数据可能带来进一步提升。
该方法在 SentEval 任务中仍与现有无监督基线（如 QuickThoughts）具有竞争力，甚至在某些情况下超过它们。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。