QUICK REVIEW

[论文解读] CLEAR: Contrastive Learning for Sentence Representation

Zhuofeng Wu, Sinong Wang|arXiv (Cornell University)|Dec 31, 2020

Topic Modeling参考文献 28被引用 230

一句话总结

CLEAR 通过除了 MLM 之外的四种增强（单词/片段删除、重新排序、同义词替换）在句子级对比学习损失下对 Transformer 进行预训练，从而提升 GLUE 与 SentEval 的表现。不同的增强方法在不同任务上带来特定的增益，且更大的批量大小与对比学习损失共同带来改进效果。

ABSTRACT

Pre-trained language models have proven their unique powers in capturing implicit language features. However, most pre-training approaches focus on the word-level training objective, while sentence-level objectives are rarely studied. In this paper, we propose Contrastive LEArning for sentence Representation (CLEAR), which employs multiple sentence-level augmentation strategies in order to learn a noise-invariant sentence representation. These augmentations include word and span deletion, reordering, and substitution. Furthermore, we investigate the key reasons that make contrastive learning effective through numerous experiments. We observe that different sentence augmentations during pre-training lead to different performance improvements on various downstream tasks. Our approach is shown to outperform multiple existing methods on both SentEval and GLUE benchmarks.

研究动机与目标

在单词级目标之外，激发更好的句子表征学习动力。
研究适用于 NLP 对比学习的句子级数据增强。
使用结合 MLM 与对比损失的预训练来学习对噪声不变的句子表征。
展示不同增强对下游任务表现与鲁棒性的影响。

提出的方法

提出 CLEAR：一个带有投影头 g(·) 的编码器 f(·) 及应用于增强句子对的对比损失 L_CL。
对集合 A 中的增强方法对每个句子生成两个增强视图：单词删除、片段删除、同义词替换和重新排序。
通过在小批量中使用余弦相似度和温度 τ 来比较正对，以得到 L_CL（SimCLR 风格的损失）。
将 L_CL 与 MLM 损失结合：L_total = L_MLM + L_CL，用于从头开始的预训练。
使用 GLUE 和 SentEval 基准评估句子表征的表现。
进行消融实验以分离对比学习损失与批量大小的影响，并分析哪些增强对哪些任务有利。

实验结果

研究问题

RQ1句子级对比学习结合精心设计的增强是否在句子表征上优于仅以词级目标？
RQ2哪些增强策略（删除、片段删除、替换、重新排序）对不同下游任务有利？
RQ3从头开始预训练时，将 MLM 与 CL 结合与仅 MLM 或仅 CL 相比有何差异？
RQ4批量大小与对比目标在观察到的改进中各自的贡献程度？
RQ5CLS-token 表征或均值池化是否与对比预训练相互作用，影响下游表现？

主要发现

CLEAR 预训练的模型在 GLUE 与 SentEval 基准上显著超越 RoBERTa 与 BERT 基线。
某些增强（如 MLM+del-word、MLM+del-span、MLM+del-span+reorder）在 8 个 GLUE 任务上平均提升 +2.2%，在 7 个 SentEval STS 任务上提升 +5.7%（相对于 RoBERTa）。(来自摘要与结果)
不同增强对不同任务有利；例如 MLM+subs+del-span 在 QQP 与 STS 上表现出色，而 MLM+del-span 提升推理任务如 MNLI、QNLI、RTE。
性能提升来自更大的批量大小与对比损失的共同作用，而不仅仅是批量大小。
CLS-token 表示通常比 SentEval 评估中的均值池化受益于对比学习。
增加对比学习显著提升 STS 任务，表明同义句对的对齐能力更强。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。