Skip to main content
QUICK REVIEW

[论文解读] ArSentD-LEV: A Multi-Topic Corpus for Target-based Sentiment Analysis in Arabic Levantine Tweets

Ramy Baly, Alaa Khaddaj|arXiv (Cornell University)|May 25, 2019
Sentiment Analysis and Opinion Mining参考文献 40被引用 36
一句话总结

介绍 ArSenTD-LEV,一个4,000条推文的黎凡特阿拉伯语情感语料库,注解包含整体情感、情感目标、表达模式和主题;显示主题与表达注解提升基线情感分类,并强调跨主题领域的挑战。

ABSTRACT

Sentiment analysis is a highly subjective and challenging task. Its complexity further increases when applied to the Arabic language, mainly because of the large variety of dialects that are unstandardized and widely used in the Web, especially in social media. While many datasets have been released to train sentiment classifiers in Arabic, most of these datasets contain shallow annotation, only marking the sentiment of the text unit, as a word, a sentence or a document. In this paper, we present the Arabic Sentiment Twitter Dataset for the Levantine dialect (ArSenTD-LEV). Based on findings from analyzing tweets from the Levant region, we created a dataset of 4,000 tweets with the following annotations: the overall sentiment of the tweet, the target to which the sentiment was expressed, how the sentiment was expressed, and the topic of the tweet. Results confirm the importance of these annotations at improving the performance of a baseline sentiment classifier. They also confirm the gap of training in a certain domain, and testing in another domain.

研究动机与目标

  • 通过引入多注释的推特语料库,为阿拉伯黎凡特方言的情感分析提供资源。
  • 探讨主题、情感目标和表达模式如何影响情感分类性能。
  • 评估在阿拉伯方言中的跨主题和跨域情感模型的影响。

提出的方法

  • 从检索得到的45,000条推文中整理出4,000条黎凡特地区推文(约旦、黎巴嫩、巴勒斯坦、叙利亚)。
  • 进行众包注释:整体情感(五点刻度)、情感目标、显性/隐性表达以及主题。
  • 预定义主题(政治、宗教、体育、个人)并收集面向主题的关键词列表以指导抽样。
  • 通过多数表决并结合注释者信任分数来处理并列情况汇总注释;通过注释者之间的最长公共子串来推导目标。
  • 用跨任务的互评一致性指标评估注释质量(主题、情感、表达)。
  • 用TF-IDF一/二元组训练基线情感分类器;比较通用模型与主题感知模型,以及包含主题和表达特征的影响。

实验结果

研究问题

  • RQ1标注情感目标和主题是否会提升黎凡特阿拉伯语推文中基于目标的情感分类?
  • RQ2主题信息如何影响跨主题与同主题情感模型的性能?
  • RQ3显性表达与隐性表达的情感对分类器准确性的影响是什么?
  • RQ4主题感知与表达感知特征能否缓解黎凡特情感分析中的领域和方言差异?

主要发现

  • 标注目标、主题和表达显著提升基线准确率和 Macro-F1(在增加主题和表达特征时,绝对点数提升约13点)。
  • 跨主题训练的性能低于同主题训练,强调主题迁移下情感模型的跨域挑战。
  • 显性情感表达在某些设置中带来显著提升(约10个百分点的绝对增益)。
  • 主题感知模型优于无主题上下文的基线,强调主题语境在阿拉伯方言情感分析中的重要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。