[论文解读] BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis
本文提出面向评测/评审的阅读理解框架 ReviewRC,并给出一种联合后训练方法(BERT-PT),通过引入领域知识和任务知识来改造 BERT,以提升 RRC、AE 和 ASC 的性能。结果显示,常规模型 BERT 在评审数据上表现不佳,而 BERT-PT 在多个任务和领域达到最先进的结果。
Question-answering plays an important role in e-commerce as it allows potential customers to actively seek crucial information about products or services to help their purchase decision making. Inspired by the recent success of machine reading comprehension (MRC) on formal documents, this paper explores the potential of turning customer reviews into a large source of knowledge that can be exploited to answer user questions.~We call this problem Review Reading Comprehension (RRC). To the best of our knowledge, no existing work has been done on RRC. In this work, we first build an RRC dataset called ReviewRC based on a popular benchmark for aspect-based sentiment analysis. Since ReviewRC has limited training examples for RRC (and also for aspect-based sentiment analysis), we then explore a novel post-training approach on the popular language model BERT to enhance the performance of fine-tuning of BERT for RRC. To show the generality of the approach, the proposed post-training is also applied to some other review-based tasks such as aspect extraction and aspect sentiment classification in aspect-based sentiment analysis. Experimental results demonstrate that the proposed post-training is highly effective. The datasets and code are available at https://www.cs.uic.edu/~hxu/.
研究动机与目标
- 将 Review Reading Comprehension (RRC) 定义为从产品评审文本中为用户问题提取答案片段。
- 创建 ReviewRC,一种基于 SemEval 评审文本且领域对齐的抽取式 RRC 数据集。
- 开发一种联合后训练策略(领域知识 + MRC 任务知识)以使 BERT 适应该评审文本。
- 证明后训练在 Laptop 与 Restaurant 域上优于常规模型 BERT,在 RRC、AE 和 ASC 任务上均有提升。
提出的方法
- 将 RRC 表述为一个跨度预测任务,输入为 [CLS]、问题、[SEP]、评审文本、[SEP],生成起始和结束指针以选取答案片段。
- 引入 ReviewRC 数据集注释,采用 SQuAD 风格,对 Laptop 与 Restaurant 的评审进行标注。
- 提出 BERT 后训练(BERT-PT),结合领域知识(通过在评审文本上的 MLM 和 NSP)和任务知识(通过来自 SQuAD 的 MRC 数据),并使用梯度累积以控制内存。
- 使用算法 1 通过交替领域知识与 MRC 批次并累积梯度来执行联合后训练。
- 在三个终端任务上对 BERT 进行微调:RRC、AE(Aspect Extraction)、ASC(Aspect Sentiment Classification)。
- 与基线方法比较,包括 DrQA、DrQA+MRC,以及多种 BERT 变体(BERT、BERT-DK、BERT-MRC、BERT-PT)。
实验结果
研究问题
- RQ1RQ1:与最先进基线相比,后训练在 RRC、AE 和 ASC 上提升幅度有多大?
- RQ2RQ2:在不进行领域/任务自适应的情况下,常规模型 BERT 在评审任务上的表现如何?
- RQ3RQ3:领域知识与任务感知知识对后训练带来的提升各自有何贡献?
主要发现
- BERT-PT 在所有三个任务和所有领域(Laptop 与 Restaurant)上取得最佳性能。
- 常规模型 BERT 在评审任务上表现较差,突显了需要适应。
- 领域知识的后训练主要提升 AE,而任务感知的后训练(MRC)在不同域对 RRC 和 ASC 提供显著提升。
- MRC 数据通过将极性问题框定为一种特殊的 MRC 问题来帮助 ASC;RRC 的边界准确率显著提升。
- 领域知识对 Restaurant 的收益高于 Laptop,暗示 Wikipedia 与评审域之间的领域覆盖差异。
- 消融实验显示领域知识与任务知识在不同任务和领域上有不同的贡献。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。