QUICK REVIEW

[论文解读] Improving BERT Performance for Aspect-Based Sentiment Analysis

Akbar Karimi, Leonardo Rossi|arXiv (Cornell University)|Oct 22, 2020

Sentiment Analysis and Opinion Mining参考文献 28被引用 28

一句话总结

该论文提出两种轻量级模块——并行聚合（P-SUM）和分层聚合（H-SUM），在不微调 BERT 本身的情况下提升 BERT 在方面级情感分析（ABSA）任务中的性能。通过利用条件随机场（CRFs）进行方面抽取和交叉熵损失进行方面情感分类，对 BERT 最后几层表示进行聚合，模型在仅训练四个周期的情况下实现了最先进（SOTA）的性能，相较于 BERT-PT 在 ASC 任务上最高提升了 +2.00 的宏平均 F1 分数。

ABSTRACT

Aspect-Based Sentiment Analysis (ABSA) studies the consumer opinion on the market products. It involves examining the type of sentiments as well as sentiment targets expressed in product reviews. Analyzing the language used in a review is a difficult task that requires a deep understanding of the language. In recent years, deep language models, such as BERT \cite{devlin2019bert}, have shown great progress in this regard. In this work, we propose two simple modules called Parallel Aggregation and Hierarchical Aggregation to be utilized on top of BERT for two main ABSA tasks namely Aspect Extraction (AE) and Aspect Sentiment Classification (ASC) in order to improve the model's performance. We show that applying the proposed models eliminates the need for further training of the BERT model. The source code is available on the Web for further research and reproduction of the results.

研究动机与目标

在不重新训练 BERT 主干网络的前提下，提升 BERT 在方面级情感分析（ABSA）任务中的性能。
解决标准 BERT 微调在 ABSA 的序列标注和文本分类任务中的局限性。
探究是否可以利用 BERT 后续层中的深层语义表示来增强方面抽取和情感分类。
验证在标准训练周期之外延长训练时间是否能在不导致过拟合的情况下提升性能。
提供一种即插即用的增强框架，与现有的基于 BERT 的 ABSA 流水线完全兼容。

提出的方法

提出并行聚合（P-SUM），从 BERT 最后四层独立计算损失，并通过逐元素平均进行融合。
引入分层聚合（H-SUM），将 BERT 最后四层堆叠，并从最后一层输出计算单一损失。
使用条件随机场（CRFs）进行方面抽取（AE），以建模序列中的标签依赖关系。
对方面情感分类（ASC）应用交叉熵损失，使用 BERT 最后一层的 [CLS] token 表示。
采用 BERT-PT 嵌入进行初始化，利用在餐厅和笔记本电脑数据集上的领域特定预训练。
在保持 BERT 参数冻结的前提下，端到端训练所提出的模块，仅优化新增的层。

实验结果

研究问题

RQ1在不微调 BERT 的情况下，聚合来自 BERT 更深层表示是否能提升 ABSA 任务的性能？
RQ2对 BERT 最后几层进行分层聚合还是并行聚合，能在 AE 和 ASC 任务中取得更好结果？
RQ3在低资源 ABSA 设置下，更长的训练周期是否能提升性能而不引起过拟合？
RQ4在 AE 任务中，使用 CRFs 的序列标注方法与标准无 CRF 方法相比表现如何？
RQ5即插即用的模块化框架是否能在更少训练周期内超越标准 BERT-PT 微调方法？

主要发现

在餐厅数据集上，H-SUM 在 AE 任务中达到 82.34 的宏平均 F1，优于 BERT-PT 的 82.64，提升 0.30 分。
在笔记本电脑数据集上，H-SUM 在 ASC 任务中达到 79.67 的宏平均 F1，优于 BERT-PT 的 76.96，提升 2.71 分。
在餐厅数据集上，H-SUM 在 ASC 任务中达到 79.67 的宏平均 F1，相较于 BERT-PT 提升 +2.00 分。
所有任务和数据集上，仅训练四个周期的模型性能均优于 BERT-PT 在 30 个周期下训练的模型。
验证损失随着训练周期增加持续下降，表明尽管训练数据有限，也未出现过拟合现象。
使用 BERT 最后四层时性能最佳，深层表示展现出更强的语义表征能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。