[论文解读] Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations
引入上下文增强,通过双向语言模型预测的上下文替代词,并有一个带标签约束的变体以保持标签兼容性,在 CNN 和 RNN 模型上提升文本分类表现。
We propose a novel data augmentation for labeled sentences called contextual augmentation. We assume an invariance that sentences are natural even if the words in the sentences are replaced with other words with paradigmatic relations. We stochastically replace words with other words that are predicted by a bi-directional language model at the word positions. Words predicted according to a context are numerous but appropriate for the augmentation of the original words. Furthermore, we retrofit a language model with a label-conditional architecture, which allows the model to augment sentences without breaking the label-compatibility. Through the experiments for six various different text classification tasks, we demonstrate that the proposed method improves classifiers based on the convolutional or recurrent neural networks.
研究动机与目标
- 推动 NLP 的数据增强,以在不使用特定任务规则的情况下提升泛化能力。
- 提出用上下文预测的替代词来替换单词,以扩展句式模式。
- 通过引入带标签条件的语言模型,防止产生与标签不兼容的增强。
- 在包含 CNN 和 RNN 模型的六个文本分类任务上展示有效性。
提出的方法
- 使用双向 LSTM 语言模型根据上下文预测每个目标位置的替代词。
- 从温度调整的分布 p_tau(·|S∖{wi}) 中采样替代词,以控制增强强度。
- 通过将句子上下文与标签拼接来引入带标签条件的语言模型,以产生与标签一致的替代词。
- 在 WikiText-103 上预训练上下文语言模型,并在每个带标签的数据集上使用带标签条件的架构进行微调。
- 比较增强方法:基于同义词的、上下文增强,以及带标签条件的上下文增强,在 CNN 和 RNN 分类器上进行比较。
- 在 SST5、SST2、Subj、MPQA、RT 以及 TREC 数据集上进行评估。
实验结果
研究问题
- RQ1上下文增强是否能提供比基于同义词的增强更丰富且与标签一致的替换词?
- RQ2结合带标签条件的语言模型是否能提升增强质量和分类器性能?
- RQ3在多种文本分类任务中,上下文增强对 CNN 和 RNN 分类器的影响如何?
主要发现
| 模型 | STT5 | STT2 | Subj | MPQA | RT | TREC | Avg |
|---|---|---|---|---|---|---|---|
| CNN | 41.3 | 79.5 | 92.4 | 86.1 | 75.9 | 90.0 | 77.53 |
| CNN w/ synonym | 40.7 | 80.0 | 92.4 | 86.3 | 76.0 | 89.6 | 77.50 |
| CNN w/ context | 41.9 | 80.9 | 92.7 | 86.7 | 75.9 | 90.0 | 78.02 |
| CNN + label | 42.1 | 80.8 | 93.0 | 86.7 | 76.1 | 90.5 | 78.20 |
| RNN | 40.2 | 80.3 | 92.4 | 86.0 | 76.7 | 89.0 | 77.43 |
| RNN w/ synonym | 40.5 | 80.2 | 92.8 | 86.4 | 76.6 | 87.9 | 77.40 |
| RNN w/ context | 40.9 | 79.3 | 92.8 | 86.4 | 77.0 | 89.3 | 77.62 |
| RNN + label | 41.1 | 80.1 | 92.8 | 86.4 | 77.4 | 89.2 | 77.83 |
- 上下文增强在跨数据集和模型上都优于基于同义词的增强,从而提升性能。
- 带标签条件的增强在平均上带来最佳的准确率。
- CNN 和 RNN 分类器均从上下文增强中受益,在 SST5、SST2、Subj、MPQA、RT 和 TREC 上观察到增益。
- 带条件的语言模型的顶级预测与标签语义对齐,展示了正标签下的正向替代词与负标签下的负向替代词(例如 fantastic → 正向标签下的正向词;在负标签下则为负向词)。
- 总体平均准确率提升:CNN 从 77.53 提高到 78.20,带 +label;RNN 从 77.43 提高到 77.83,带 +label。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。