[论文解读] SentiHood: Targeted Aspect Based Sentiment Analysis Dataset for Urban Neighbourhoods
本文提出了目标方面情感分析(T-ABSA),这是一种新任务,旨在识别单个文本单元中多个实体的特定方面的情感。基于从讨论城市社区的问答平台提取的SentiHood数据集,作者使用逻辑回归和LSTM模型建立了强基线,针对安全和价格方面的AUC得分分别达到0.960和0.940。
In this paper, we introduce the task of targeted aspect-based sentiment analysis. The goal is to extract fine-grained information with respect to entities mentioned in user comments. This work extends both aspect-based sentiment analysis that assumes a single entity per document and targeted sentiment analysis that assumes a single sentiment towards a target entity. In particular, we identify the sentiment towards each aspect of one or more entities. As a testbed for this task, we introduce the SentiHood dataset, extracted from a question answering (QA) platform where urban neighbourhoods are discussed by users. In this context units of text often mention several aspects of one or more neighbourhoods. This is the first time that a generic social media platform in this case a QA platform, is used for fine-grained opinion mining. Text coming from QA platforms is far less constrained compared to text from review specific platforms which current datasets are based on. We develop several strong baselines, relying on logistic regression and state-of-the-art recurrent neural networks.
研究动机与目标
- 解决现有情感分析任务的局限性,即假设每段文本仅涉及单一实体或整体情感。
- 提出一项新任务——目标方面情感分析,识别单个文本中多个实体的特定方面的情感。
- 创建一个新数据集SentiHood,源自真实世界问答平台中关于城市社区的讨论。
- 为新任务提供基于逻辑回归和循环神经网络的强基线。
- 与传统的基于评论的数据集相比,实现在更宽松的社交媒体环境(如问答平台)中细粒度意见挖掘。
提出的方法
- 从聚焦城市社区的问答平台提取文本,用户在其中讨论多个地点的多个方面。
- 对每个句子进行标注,包括目标实体(社区)、方面(如价格、安全、交通)和情感极性(正面、负面、中性)。
- 开发一种使用n-gram和词性(POS)特征的逻辑回归模型,并引入掩码机制以提升性能。
- 实现一种基于LSTM的序列模型,以捕捉文本中长距离依赖关系,用于方面和情感分类。
- 在SentiHood数据集上训练模型,区分仅含单个地点实体或多个地点实体的句子。
- 通过在方面和情感分类任务上平均的AUC分数评估模型性能,并对特定方面的表现进行消融分析。
实验结果
研究问题
- RQ1目标方面情感分析能否有效提取单个文本中多个实体的多个方面的情感?
- RQ2逻辑回归和LSTM模型在仅含单个地点实体与含多个地点实体的句子上的性能表现如何比较?
- RQ3在SentiHood数据集中,哪些方面(如价格、安全、交通)最易于通过所提模型预测?
- RQ4与基线模型相比,引入POS和n-gram特征在多大程度上提升了情感分类性能?
- RQ5像LSTM这样的神经网络模型在问答平台文本中多样的语言模式下,其泛化能力如何?
主要发现
- 使用n-gram和POS特征的逻辑回归模型在安全方面取得了最高的AUC得分0.960,优于其他模型。
- 表现最佳的逻辑回归模型在单地点句子上的整体AUC为0.916,在多地点句子上为0.907。
- LSTM模型在多地点句子上的表现略优(AUC 0.890),优于单地点句子(AUC 0.872)。
- 安全方面最易预测,使用逻辑回归基线的AUC达到0.960,而整体方面AUC最低,为0.864。
- 系统正确识别出location2的总体方面为正面情感,但未能检测出location1中缺乏情感,表明在处理中性或隐含情感时存在局限性。
- 表现最佳的模型(带掩码的逻辑回归)在区分多个实体的情感方面表现出稳健性,尤其在高精度方面如安全和价格方面。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。