Skip to main content
QUICK REVIEW

[论文解读] Data Augmentation using Pre-trained Transformer Models

Varun Kumar, Ashutosh Choudhary|arXiv (Cornell University)|Mar 4, 2020
Topic Modeling参考文献 26被引用 140
一句话总结

本论文比较在低资源设置下,对预训练变换器模型(BERT, GPT-2, BART)进行数据增强的条件化,发现序列到序列基的BART在数据增强方面通常表现最好,而像回译等基准方法是强有力的基线。

ABSTRACT

Language model based pre-trained models such as BERT have provided significant gains across different NLP tasks. In this paper, we study different types of transformer based pre-trained models such as auto-regressive models (GPT-2), auto-encoder models (BERT), and seq2seq models (BART) for conditional data augmentation. We show that prepending the class labels to text sequences provides a simple yet effective way to condition the pre-trained models for data augmentation. Additionally, on three classification benchmarks, pre-trained Seq2Seq model outperforms other data augmentation methods in a low-resource setting. Further, we explore how different pre-trained model based data augmentation differs in-terms of data diversity, and how well such methods preserve the class-label information.

研究动机与目标

  • 评估三种基于变换器的数据增强方法(AE/BERT, AR/GPT-2, Seq2Seq/BART)用于条件化文本生成。
  • 评估标签条件化(前置输入 vs 扩展)如何影响跨任务的增强质量。
  • 在低资源情形下,将数据增强方法与基线方法(EDA、Backtranslation、CBERT)进行比较。
  • 分析生成数据的语义保真度与多样性。
  • 提供选择预训练模型用于数据增强的实用指南。

提出的方法

  • 在带有类别标签前置到输入中的有标签数据上微调BERT、GPT-2和BART以对生成进行条件化。
  • 对于AE模型(BERT),使用带标准掩蔽的MLM目标;对于AR模型(GPT-2),使用标签提示和扩展上下文生成条件化文本;对于Seq2Seq模型(BART),使用带单词或片段掩蔽的去噪训练,掩蔽率40%。
  • 比较两种条件化方案:前置(将标签置于输入前)和扩展(将标签作为词汇表中的附加标记)。
  • 为每个训练样本生成一个合成样本,形成平衡的增强数据集。
  • 在增强数据上训练一个基础BERT分类器,并在完整测试集上评估。
  • 同时评估内在效应(通过检测器分类器的语义保真度和类型-词汇多样性)和外在效应(测试集准确率)。

实验结果

研究问题

  • RQ1可通过对预训练的自编码器、自回归和序列到序列模型对类别标签进行有效条件化以用于数据增强?
  • RQ2哪种条件化方案(前置 vs 扩展)在下游任务中能提供更好的性能和泛化?
  • RQ3在低资源设置下,这些增强方法与强基线(EDA、Backtranslation、CBERT)相比如何?
  • RQ4生成的样本在语义保真度和多样性方面在各模型之间如何平衡?
  • RQ5在选择用于数据增强的预训练模型方面,有哪些实用指南?

主要发现

模型SST-2SNIPSTREC
No Aug52.93 (5.01)79.38 (3.20)48.56 (11.53)
EDA53.82 (4.44)85.78 (2.96)52.57 (10.49)
BackTrans.57.45 (5.56)86.45 (2.40)66.16 (8.52)
CBERT57.36 (6.72)85.79 (3.46)64.33 (10.90)
BERT expand56.34 (6.48)86.11 (2.70)65.33 (6.05)
BERT prepend56.11 (6.33)86.77 (1.61)64.74 (9.61)
GPT2 context55.40 (6.71)86.59 (2.73)54.29 (10.12)
BART word57.97 (6.80)86.78 (2.59)63.73 (9.84)
BART span57.68 (7.06)87.24 (1.39)67.30 (6.13)
  • Seq2Seq-based BART generally outperforms other augmentation approaches across SST-2, SNIPS, and TREC in low-data settings.
  • Back-translation remains a strong baseline for fidelity, often outperforming other pre-trained methods.
  • AE-based methods (BERT) show competitive performance, with simple label prepending yielding robust results.
  • AR-based GPT-2 requires additional context (GPT-2 context) to better preserve labels in generated data.
  • Diversity and fidelity trade-offs vary by method; EDA offers high lexical diversity but may harm semantics.
  • Prepend conditioning is often preferable to expansion due to broader compatibility and faster convergence.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。