[论文解读] Supervised Contrastive Learning for Pre-trained Language Model Fine-tuning
该论文在预训练语言模型的标准交叉熵微调目标上添加了一个有监督对比学习项,在无需额外数据或架构的情况下,提升了 GLUE 任务在少量样本下的表现和鲁棒性。
State-of-the-art natural language understanding classification models follow two-stages: pre-training a large language model on an auxiliary task, and then fine-tuning the model on a task-specific labeled dataset using cross-entropy loss. However, the cross-entropy loss has several shortcomings that can lead to sub-optimal generalization and instability. Driven by the intuition that good generalization requires capturing the similarity between examples in one class and contrasting them with examples in other classes, we propose a supervised contrastive learning (SCL) objective for the fine-tuning stage. Combined with cross-entropy, our proposed SCL loss obtains significant improvements over a strong RoBERTa-Large baseline on multiple datasets of the GLUE benchmark in few-shot learning settings, without requiring specialized architecture, data augmentations, memory banks, or additional unsupervised data. Our proposed fine-tuning objective leads to models that are more robust to different levels of noise in the fine-tuning training data, and can generalize better to related tasks with limited labeled data.
研究动机与目标
- 在有限标注数据下,解决跨熵微调的泛化差距和不稳定性的问题。
- 引入针对有标签的 NLP 任务而定制的有监督对比学习(SCL)项。
- 证明将 CE 与 SCL 结合可以提高对噪声标签的鲁棒性,并更好地迁移到相关任务。
- 显示基于 SCL 的微调在 SST-2、QNLI 和 MNLI 上获得更好的少样本结果。
提出的方法
- 定义一个联合损失 L = (1 - lambda) * L_CE + lambda * L_SCL,带有一个温度 tau 和 L2 归一化的特征。
- 通过在一个批次内将同一类样本聚在一起、将不同类别样本分离开来来计算 L_SCL(如方程(3))。
- 使用 [CLS] 令牌嵌入作为每个样本的表征,并对 RoBERTa-Large 在 GLUE 任务上进行微调。
- 在 lambda ∈ {0.1,0.3,0.5,0.7,0.9,1.0} 和 tau ∈ {0.1,0.3,0.5,0.7} 上进行网格搜索,通常 tau = 0.3 且 lambda = 0.9 能获得最佳结果。
- 通过使用变温度 T 的回译来创建扩增的带噪训练数据来探索鲁棒性(第4.2节)。
- 在 GLUE 上使用 RoBERTa-Large 进行少样本和全数据实验的基准测试,报告 across seeds 的均值和标准差。
实验结果
研究问题
- RQ1在微调中加入有监督对比损失是否能提升少样本 NLP 分类性能?
- RQ2与标准交叉熵相比,SCL 目标是否对标签噪声与数据增强更鲁棒?
- RQ3当标注数据稀缺时,SCL 是否提升对相关任务的泛化能力?
- RQ4使用 CE+SCL 时,批量大小如何影响性能和训练速度?
- RQ5SCL 是否能提升任务特定模型向相关领域的迁移性?
主要发现
- 在 20-shot 设置中,CE+SCL 相比 CE 基线在 SST-2、QNLI、MNLI 上的提升幅度因任务和数据规模而异,达到 2.2–10.7 点。
- 在完整 GLUE 实验中,CE+SCL 相比 RoBERTa-Large CE 基线在六个任务上平均提升约 1.2 点(MRPC 和 QNLI 显著)。
- CE+SCL 对带噪扩增数据具有鲁棒性,在不同噪声水平下平均提升 0.4–7.0 点,在 harder 任务(MNLI、QNLI)上提升更大。
- 通过温度缩放(tau)和对 L2 归一化处理的难负样本,提升同类样本在表示中的聚类效果(tSNE 证据)。
- CE+SCL 提升跨领域泛化:SST-2 训练的模型向 Amazon-2 和 Yelp-2 的迁移在标注样本更少的情况下表现更好。
- 增大批量大小会放大 CE+SCL 的益处,在较大批量时对训练速度(每秒更新次数)的影响更为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。