[论文解读] Adapt or Get Left Behind: Domain Adaptation through BERT Language Model Finetuning for Aspect-Target Sentiment Classification
论文提出一个两步方法,先进行领域特定的BERT微调,再进行有监督的ATSC训练,在SemEval 2014餐馆数据集上达到最新的SOTA结果,并且实现了从笔记本领域到餐馆领域以及反向的鲁棒跨领域迁移。
Aspect-Target Sentiment Classification (ATSC) is a subtask of Aspect-Based Sentiment Analysis (ABSA), which has many applications e.g. in e-commerce, where data and insights from reviews can be leveraged to create value for businesses and customers. Recently, deep transfer-learning methods have been applied successfully to a myriad of Natural Language Processing (NLP) tasks, including ATSC. Building on top of the prominent BERT language model, we approach ATSC using a two-step procedure: self-supervised domain-specific BERT language model finetuning, followed by supervised task-specific finetuning. Our findings on how to best exploit domain-specific language model finetuning enable us to produce new state-of-the-art performance on the SemEval 2014 Task 4 restaurants dataset. In addition, to explore the real-world robustness of our models, we perform cross-domain evaluation. We show that a cross-domain adapted BERT language model performs significantly better than strong baseline models like vanilla BERT-base and XLNet-base. Finally, we conduct a case study to interpret model prediction errors.
研究动机与目标
- 将ATSC作为ABSA中的一个细粒度情感任务进行动机阐释,并在现实应用中应对领域转移。
- 研究领域特定的自监督微调对ATSC性能的影响。
- 评估跨域迁移和联合域训练,以评估餐馆与笔记本领域的鲁棒性。
提出的方法
- 两步程序:领域特定的自监督微调BERT语言模型,然后进行有监督的ATSC微调。
- 通过输入 [CLS] sentence [SEP] target [SEP] 将ATSC 转换为BERT序列对分类。
- 系统地改变微调领域(餐馆、笔记本,或两者)及训练设置(同领域、跨领域、联合域)。
- 使用输入削减来解释模型预测并分析错误。
实验结果
研究问题
- RQ1RQ1:在领域数据上对BERT语言模型进行微调的数量/程度如何影响ATSC的性能?
- RQ2RQ2:在充分利用领域特定微调的前提下,进行同领域训练可达到的ATSC性能是多少?
- RQ3RQ3:与同领域基线相比,跨域自适配(领域自适应的LM微调)对ATSC性能有何影响?
- RQ4RQ4:联合域训练是否提升跨领域的性能?
- RQ5RQ5:领域自适应后仍存在哪些错误类型,解释方法如何帮助理解它们?
主要发现
- 领域特定的LM微调显著提升ATSC的准确性,增益在数千万条微调句子后因领域而异而呈现边际递减。
- 在同领域的领域自适应LM上,餐馆和笔记本的结果接近SOTA,尤其是在餐馆领域取得新的SOTA(87.14%准确率)。
- 跨域自适应(目标域LM微调模型)在多数情况下优于BERT-base,举例而言,取决于源域/目标域配对,提升约+2.2–3.6个百分点。
- 联合域训练(Laptops+Restaurants)进一步提升宏观F1,特别是在类别不平衡的数据集中,中性类别的性能受益。
- 通过输入削减的案例研究表明,领域自适应模型更能捕捉依赖上下文的情感表达和否定,但中性案例仍具有挑战性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。