QUICK REVIEW

[论文解读] Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks

Lichao Sun, Congying Xia|arXiv (Cornell University)|Oct 5, 2020

Multimodal Machine Learning Applications被引用 23

一句话总结

本文提出 Mixup-Transformer，一种在基于 Transformer 的模型（如 BERT）的隐藏表示层面应用 Mixup 的动态数据增强方法，显著提升了多种自然语言处理任务的性能。通过在训练过程中对最终隐藏状态及其对应标签进行线性插值，该方法实现了稳定的准确率提升，尤其在低资源设置下表现突出，证明了 Mixup 是一种与领域无关、可端到端训练的预训练语言模型数据增强技术。

ABSTRACT

Mixup is the latest data augmentation technique that linearly interpolates input examples and the corresponding labels. It has shown strong effectiveness in image classification by interpolating images at the pixel level. Inspired by this line of research, in this paper, we explore i) how to apply mixup to natural language processing tasks since text data can hardly be mixed in the raw format; ii) if mixup is still effective in transformer-based learning models, e.g., BERT. To achieve the goal, we incorporate mixup to transformer-based pre-trained architecture, named "mixup-transformer", for a wide range of NLP tasks while keeping the whole end-to-end training system. We evaluate the proposed framework by running extensive experiments on the GLUE benchmark. Furthermore, we also examine the performance of mixup-transformer in low-resource scenarios by reducing the training data with a certain ratio. Our studies show that mixup is a domain-independent data augmentation technique to pre-trained language models, resulting in significant performance improvement for transformer-based models.

研究动机与目标

探究 Mixup 在计算机视觉中有效，是否可适配到自然语言处理任务中，尽管原始文本无法进行线性插值。
探索 Mixup 是否能提升最先进的基于 Transformer 的模型（如 BERT）的性能。
开发一种端到端可训练的框架，在表示层而非原始输入或固定嵌入层应用 Mixup。
评估 Mixup-Transformer 在训练数据减少的低资源设置下的有效性。
证明 Mixup 是一种与领域无关的预训练语言模型数据增强技术。

提出的方法

该方法在预训练 Transformer 模型的最终隐藏层应用 Mixup，使用插值表示 $\hat{x} = \lambda \cdot T(x_i) + (1-\lambda) \cdot T(x_j)$，其中 $T(\cdot)$ 为 Transformer 的输出。
标签也进行线性插值，形式为 $\hat{y} = \lambda y_i + (1-\lambda) y_j$，其中 $\lambda \sim \text{Beta}(\alpha, \alpha)$ 或固定为 0.5。
Mixup 层被整合进微调过程，保持端到端训练，无需外部流水线或辅助模型。
该方法在包含文本分类与回归任务的八项多样化 NLP 任务上，于 GLUE 基准上进行了评估。
超参数 $\lambda$ 由于在消融研究中表现不敏感，设定为 0.5；训练使用标准 BERT 超参数，共 3 个周期。
该方法应用于 BERT-base 和 BERT-large 模型，并通过将训练数据从 10% 到 90% 的范围减少，测试其在数据稀缺条件下的表现。

实验结果

研究问题

RQ1尽管文本数据具有离散、非连续的特性，Mixup 是否仍能有效应用于 NLP 任务？
RQ2当应用于基于 Transformer 的模型（如 BERT）时，特别是作用于隐藏表示层时，Mixup 是否能提升性能？
RQ3在标注数据有限的低资源 NLP 场景中，Mixup 是否依然有效？
RQ4在多种 NLP 任务中，Mixup 与传统数据增强方法相比，在性能和鲁棒性方面表现如何？
RQ5Mixup 是否是一种与领域无关的技术，能在不同 NLP 基准和模型架构中实现良好泛化？

主要发现

在 GLUE 基准的 16 项任务中，Mixup-Transformer 在 BERT-base 上提升了 14 项任务的性能，平均准确率提升约 1%。
在 RTE 任务中提升最为显著，准确率从 68.23% 提升至 71.84%（+3.61%），适用于 BERT-base。
在 BERT-large 上，CoLA 的 Matthews 相关系数从 59.71% 提升至 62.39%（+2.68%）。
在低资源设置下，当仅使用 40% 的训练数据时，Mixup-Transformer 在 MRPC 上实现了最高 4.90% 的性能提升。
即使在完整训练数据下，Mixup-Transformer 在 MRPC 上仍使 BERT-large 的性能提升了 2.46%，表明其在不同数据规模下均具有一致的增益。
该方法在各项任务中表现出稳健性，仅有两项轻微性能下降（STS-B 和一个 MNLI 设置），证实了其良好的泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。