[论文解读] A Contrastive Cross-Channel Data Augmentation Framework for Aspect-based Sentiment Analysis
C3da 使用跨通道数据增强与对比学习框架,使用基于 T5 的生成器以生成领域内的多方面 ABSA 样本,在准确率和 Macro-F1 上优于基线。
Aspect-based sentiment analysis (ABSA) is a fine-grained sentiment analysis task, which focuses on detecting the sentiment polarity towards the aspect in a sentence. However, it is always sensitive to the multi-aspect challenge, where features of multiple aspects in a sentence will affect each other. To mitigate this issue, we design a novel training framework, called Contrastive Cross-Channel Data Augmentation (C3 DA), which leverages an in-domain generator to construct more multi-aspect samples and then boosts the robustness of ABSA models via contrastive learning on these generated data. In practice, given a generative pretrained language model and some limited ABSA labeled data, we first employ some parameter-efficient approaches to perform the in-domain fine-tuning. Then, the obtained in-domain generator is used to generate the synthetic sentences from two channels, i.e., Aspect Augmentation Channel and Polarity Augmentation Channel, which generate the sentence condition on a given aspect and polarity respectively. Specifically, our C3 DA performs the sentence generation in a cross-channel manner to obtain more sentences, and proposes an Entropy-Minimization Filter to filter low-quality generated samples. Extensive experiments show that our C3 DA can outperform those baselines without any augmentations by about 1% on accuracy and Macro- F1. Code and data are released in https://github.com/wangbing1416/C3DA.
研究动机与目标
- 通过利用数据增强创建领域内的多方面样本来解决 ABSA 的多方面挑战。
- 采用参数高效的微调来让生成器适应领域内的句子生成。
- 结合跨通道生成与基于熵的筛选以产生高质量的增强数据。
- 应用对比学习目标以更好地区分句子中的方面特定嵌入。
- 在多种骨干模型的标准 ABSA 数据集上展示鲁棒性提升。
提出的方法
- 使用预训练的 T5 编码器-解码器作为增强生成器,采用参数高效微调(提示/前缀/LoRA)。
- 将生成器训练为在 (i) 给定句子和方面、和 (ii) 给定句子和极性的条件下生成句子。
- 通过将生成输出反馈进入备选通道进行跨通道生成,以创建额外多样化的样本。
- 利用基于预测熵的熵最小化筛选(Entropy-Minimization Filter, EMF)筛选低质量的合成句子。
- 以联合目标进行训练:原始数据和增强数据的监督交叉熵 + 对比学习的三元组损失,以推动同一句子中不同方面的嵌入分离。
- 关键方程包括:L_SCT = (1/N) sum CE(h_i W_s + b_s, p_i) + α CE(h_i^p W_s + b_s, p_i); R_CT = (1/N) sum max{ d(h_i, h_i^p) − d(h_i, h_i^n) + ξ, 0 }; L = L_SCT + β R_CT。
实验结果
研究问题
- RQ1在数据稀缺条件下,领域内跨通道数据增强是否能提升 ABSA 的表现?
- RQ2跨通道生成(面向方面的条件与极性条件的生成)如何影响多方面表示学习?
- RQ3引入基于熵的样本筛选是否能改善增强数据的质量与效用?
- RQ4对比学习目标对方面解耦嵌入有何影响?
- RQ5C3da 的增益在不同 ABSA 数据集与骨干模型之间有何差异?
主要发现
| 模型 | Restaurant acc | Restaurant F1 | Laptop acc | Laptop F1 | Twitter acc | Twitter F1 |
|---|---|---|---|---|---|---|
| BERT-base | 86.31 | 80.22 | 79.66 | 76.11 | 76.50 | 75.23 |
| + EDA | 86.42 | 79.63 | 79.59 | 75.79 | 76.26 | 75.16 |
| + BT | 86.47 | 80.29 | 79.67 | 76.35 | 76.63 | 75.47 |
| + CBERT | 86.27 | 80.00 | 79.83 | 76.12 | 76.44 | 75.36 |
| + SCon | 86.51 | 80.55 | 80.23 | 76.48 | - | - |
| + C3da (Ours) | 86.93 | 81.23 | 80.61 | 77.11 | 77.55 | 76.53 |
| RoBERTa-base | 86.38 | 80.29 | 80.10 | 76.24 | 76.63 | 75.37 |
| + EDA | 86.43 | 80.21 | 80.38 | 76.59 | 76.47 | 75.36 |
| + BT | 86.50 | 80.59 | 80.22 | 76.73 | 76.59 | 75.47 |
| + CBERT | 86.77 | 80.51 | 80.54 | 76.57 | 76.73 | 75.37 |
| + C3da | 87.11 | 81.63 | 81.83 | 78.46 | 78.31 | 76.67 |
- C3da 在 Restaurant、Laptop 和 Twitter 数据集上的基线(基于 BERT 和 RoBERTa)上表现出持续的改进。
- 平均而言,基于 RoBERTa 的模型在带有增强的情况下,在准确率或 Macro-F1 上相比基线有约 0.87% 到 2.22% 的绝对增益。
- C3da 取得更大的 Macro-F1 增益,表明在跨方面交互上的泛化性和鲁棒性有所提升。
- 消融研究表明数据增强加上对比学习与 EMF 对性能有贡献,AAC 与 PAC 均有益(AAC 影响略大)。
- 案例研究表明在使用 C3da 时,对模棱两可句子的极性分布稳定性得到改善。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。