Skip to main content
QUICK REVIEW

[论文解读] COCO-LM: Correcting and Contrasting Text Sequences for Language Model Pretraining

Meng Yu, Chenyan Xiong|arXiv (Cornell University)|Feb 16, 2021
Topic Modeling参考文献 70被引用 129
一句话总结

COCO-LM 通过联合纠正损坏的文本令牌和对比损坏/裁剪序列来预训练语言模型,在提高效率的同时在GLUE/SQuAD上达到最新成果。

ABSTRACT

We present a self-supervised learning framework, COCO-LM, that pretrains Language Models by COrrecting and COntrasting corrupted text sequences. Following ELECTRA-style pretraining, COCO-LM employs an auxiliary language model to corrupt text sequences, upon which it constructs two new tasks for pretraining the main model. The first token-level task, Corrective Language Modeling, is to detect and correct tokens replaced by the auxiliary model, in order to better capture token-level semantics. The second sequence-level task, Sequence Contrastive Learning, is to align text sequences originated from the same source input while ensuring uniformity in the representation space. Experiments on GLUE and SQuAD demonstrate that COCO-LM not only outperforms recent state-of-the-art pretrained models in accuracy, but also improves pretraining efficiency. It achieves the MNLI accuracy of ELECTRA with 50% of its pretraining GPU hours. With the same pretraining steps of standard base/large-sized models, COCO-LM outperforms the previous best models by 1+ GLUE average points.

研究动机与目标

  • 推动超越标准 MLM/ELECTRA 框架的更高效、效果更好的预训练。
  • 引入两个用于解决令牌级语义和序列表示的新预训练任务:纠错语言建模(CLM)和序列对比学习(SCL)。
  • 证明 COCO-LM 在 GLUE 与 SQuAD 上具有更高的准确性,同时降低预训练计算量。
  • 展示该方法在表示空间中获得更好的令牌表示以及对齐/均匀性。

提出的方法

  • 使用辅助生成器式模型对输入序列进行污染,方式类似 ELECTRA。
  • 用主 Transformer 进行训练:CLM 以检测并纠正被替换的令牌;SCL 以将被污染的序列与裁剪后的原序列对齐。
  • CLM 在多任务设置中结合复制机制和语言建模损失。
  • SCL 对序列表示应用对比损失,使用成对的(污染的、裁剪的)正样本和随机负样本。
  • 总体目标函数为 L_COCO-LM = L_Aux.MLM + L_Main.CLM + L_Main.SCL。
  • 给出网络配置,其中辅助模型较小但功能完备,主模型遵循标准的 BERT/ELECTRA 架构。

实验结果

研究问题

  • RQ1纠正损坏的令牌并对比损坏与裁剪序列是否能提升预训练效率和下游性能?
  • RQ2CLM 与 SCL 是否为令牌级语义和序列级表示空间提供互补收益?
  • RQ3在等量训练预算下,COCO-LM 与 ELECTRA 与 RoBERTa 在 GLUE 和 SQuAD 的比较如何?
  • RQ4数据增强强度(裁剪比例)和体系架构选择对性能与泛化的影响是什么?

主要发现

  • COCO-LM 在 GLUE 平均水平和 SQuAD 的基线、base、base++、large++ 设置上均超过最近的最先进预训练模型。
  • 在相同的预训练设置下,COCO-LM 在 RoBERTa 和 ELECTRA 的 MNLI 准确率达到 60% 和 50% 的 GPU 时长水平。
  • 在相同的步数下,COCO-LM/Base++ 比以前的最佳模型在 GLUE 平均分上提升 1+ 点。
  • COCO-LM/Large++(367M 参数)达到的 MNLI 准确率与 Megatron 3.9B 相当。
  • SCL 提高了表示的对齐性和均匀性,降低了退化并提升少样本泛化;CLM 在被污染序列上提供鲁棒的令牌级建模。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。