[论文解读] Exploiting BERT for End-to-End Aspect-based Sentiment Analysis
这篇论文表明,使用简单下游层的 BERT 可以超越以往的端到端 ABSA 模型,确立了基于 BERT 的基准并强调微调的重要性。它评估了几种基于 BERT 的架构,并展示了在两个 SemEval 衍生数据集上的鲁棒性,避免过拟合。
In this paper, we investigate the modeling power of contextualized embeddings from pre-trained language models, e.g. BERT, on the E2E-ABSA task. Specifically, we build a series of simple yet insightful neural baselines to deal with E2E-ABSA. The experimental results show that even with a simple linear classification layer, our BERT-based architecture can outperform state-of-the-art works. Besides, we also standardize the comparative study by consistently utilizing a hold-out validation dataset for model selection, which is largely ignored by previous works. Therefore, our work can serve as a BERT-based benchmark for E2E-ABSA.
研究动机与目标
- 评估来自 BERT 的上下文嵌入在端到端的基于方面的情感分析 (E2E-ABSA) 中的有效性。
- 研究在 BERT 顶层的简单下游架构(线性、RNN、自注意力、CRF)在 E2E-ABSA 的序列标注中的作用。
- 提供带有保留开发集的标准化评估设置,用于模型选择。
- 提供一个基于 BERT 的 E2E-ABSA 基准,并发布开源代码以提高可复现性。
提出的方法
- 使用预训练的 BERT 模型对令牌进行嵌入,获得输入令牌的上下文化表示 H^L。
- 在 BERT 顶部附加一个简单的 E2E-ABSA 层,探索线性、GRU、自注意力(SAN)和基于变换器的(TFM)变体。
- 可选地添加一个线性链 CRF 层,通过 Viterbi 解码来建模序列依赖性。
- 微调 BERT(与将其用作固定特征提取器相比)以最大化任务性能。
- 在 LAPTOP 和 REST 数据集上与传统的 LSTM-CRF 及其他 ABSA 基线进行比较。
- 使用开发集和测试集上的微平均 F1 分数报告结果。
实验结果
研究问题
- RQ1仅使用 BERT 的上下文化嵌入(配合一个简单的线性分类器)是否就能超越以往的 E2E-ABSA 模型?
- RQ2在使用 BERT 表示的情况下,更强大的下游层(GRU、SAN、TFM、CRF)是否相对于线性分类器带来显著提升?
- RQ3微调 BERT 对于 E2E-ABSA 的最佳性能是否是必需的,还是可以将 BERT 用作固定特征提取器?
- RQ4基于 BERT 的 E2E-ABSA 模型在小数据集上的过拟合鲁棒性如何?
- RQ5基于 BERT 的方法在标准 ABSA 基准上与现有的最先进模型相比如何?
主要发现
| 模型 | LAPTOP P | LAPTOP R | LAPTOP F1 | REST P | REST R | REST F1 |
|---|---|---|---|---|---|---|
| Li et al. 2019a (existing) | 61.27 | 54.89 | 57.90 | 68.64 | 71.01 | 69.80 |
| Luo et al. 2019 (existing) | - | - | 60.35 | - | - | 72.78 |
| He et al. 2019 (existing) | - | - | 58.37 | - | - | - |
| LSTM-CRF | 58.61 | 50.47 | 54.24 | 66.10 | 66.30 | 66.20 |
| Ma & Hovy 2016 | 58.66 | 51.26 | 54.71 | 61.56 | 67.26 | 64.29 |
| Liu et al. 2018 | 53.31 | 59.40 | 56.19 | 68.46 | 64.43 | 66.38 |
| BERT+Linear | 62.16 | 58.90 | 60.43 | 71.42 | 75.25 | 73.22 |
| BERT+GRU | 61.88 | 60.47 | 61.12 | 70.61 | 76.20 | 73.24 |
| BERT+SAN | 62.42 | 58.71 | 60.49 | 72.92 | 76.72 | 74.72 |
| BERT+TFM | 63.23 | 58.64 | 60.80 | 72.39 | 76.64 | 74.41 |
| BERT+CRF | 62.22 | 59.49 | 60.78 | 71.88 | 76.48 | 74.06 |
- 一个简单的 BERT+Linear 模型在没有 BERT 的情况下就已经超越了许多现有的 ABSA 方法。
- 更高级的下游层(GRU、SAN、TFM、CRF)在 F1 分数上带来额外提升。
- 基于 BERT 的模型对过拟合表现出鲁棒性,在长期训练中 F1 稳定。
- 微调 BERT 的效果显著优于将 BERT 作为固定特征提取器使用。
- 在 LAPTOP 和 REST 数据集上,使用 SAN/TFM 的 BERT 基模型在本研究中实现了最高的 F1 分数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。