[论文解读] Double Embeddings and CNN-based Sequence Labeling for Aspect Extraction
DE-CNN 采用新颖的双嵌入方法(通用与领域特定),结合纯 CNN 进行序列标注以提取产品方面,然后在无需额外监督的情况下达到最先进的结果。
One key task of fine-grained sentiment analysis of product reviews is to extract product aspects or features that users have expressed opinions on. This paper focuses on supervised aspect extraction using deep learning. Unlike other highly sophisticated supervised deep learning models, this paper proposes a novel and yet simple CNN model employing two types of pre-trained embeddings for aspect extraction: general-purpose embeddings and domain-specific embeddings. Without using any additional supervision, this model achieves surprisingly good results, outperforming state-of-the-art sophisticated existing methods. To our knowledge, this paper is the first to report such double embeddings based CNN model for aspect extraction and achieve very good results.
研究动机与目标
- 通过准确提取产品方面来推动细粒度情感分析。
- 提出一个简单但有效的基于 CNN 的序列标注模型。
- 证明结合通用与领域特定嵌入可以提升性能。
- 在不使用手工特征或额外监督的情况下展示具有竞争力的结果。
提出的方法
- 对每个词连接两种固定的(不可调节的)嵌入:通用的 GloVe 和领域特定的 fastText 嵌入。
- 应用一个包含 4 层的 CNN 堆叠,采用精心选取的核大小以产生与单词对齐的序列标注表示。
- 使用一个共享的全连接层和一个 softmax 分类器来预测每个位置的 B/I/O 标签。
- 避免最大池化以保持位置对齐;在嵌入和激活之后应用 dropout。
- 可选地与 CRF 层进行比较,以评估其对标注依赖性的影响。
实验结果
研究问题
- RQ1在没有额外监督的情况下,基于 CNN 的双嵌入模型是否能充分捕捉细粒度的方面信息?
- RQ2领域内嵌入与通用嵌入对方面提取性能有何影响?
- RQ3在方面提取任务的序列标注中,最大池化是否有害?
- RQ4在此设置下,CRF 层是否相对于纯 softmax 提供额外提升?
主要发现
| 模型 | 笔记本 | 餐馆 |
|---|---|---|
| CRF | 74.01 | 69.56 |
| IHS_RD | 74.55 | - |
| NLANGP | - | 72.34 |
| WDEmb | 75.16 | - |
| LSTM | 75.25 | 71.26 |
| BiLSTM-CNN-CRF | 77.80 | 72.50 |
| RNCRF | 78.42 | - |
| CMLA | 77.80 | - |
| MIN | 77.58 | 73.44 |
| GloVe-CNN | 77.67 | 72.08 |
| Domain-CNN | 78.12 | 71.75 |
| MaxPool-DE-CNN | 77.45 | 71.12 |
| DE-LSTM | 78.73 | 72.94 |
| DE-OOD-CNN | 80.21 | 74.20 |
| DE-Google-CNN | 78.80 | 72.10 |
| DE-CNN-CRF | 80.80 | 74.10 |
| DE-CNN | 81.59* | 74.37* |
- 相较于列出的基线,DE-CNN 在 SemEval 笔记本和餐馆数据集上取得了最佳的 F1 分数。
- 同时使用通用与领域嵌入的表现优于仅使用其中之一。
- 在笔记本领域,领域内嵌入特别有利,因为领域特定的方面更为频繁。
- 最大池化在本任务的序列标注中会降低性能。
- CRF 层的收益有限,在跨领域上并非始终有利。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。