[论文解读] SentiPers: A Sentiment Analysis Corpus for Persian
SentiPers 是一个为波斯语手动标注的情感分析语料库,包含超过 26,000 个句子,其情感标签涵盖文档级、句子级和方面级,并使用连续情感得分。它是首个具有多层次标注和量化情感强度的综合性波斯语文本语料库,可支持低资源自然语言处理应用中的高级意见挖掘。
Sentiment Analysis (SA) is a major field of study in natural language processing, computational linguistics and information retrieval. Interest in SA has been constantly growing in both academia and industry over the recent years. Moreover, there is an increasing need for generating appropriate resources and datasets in particular for low resource languages including Persian. These datasets play an important role in designing and developing appropriate opinion mining platforms using supervised, semi-supervised or unsupervised methods. In this paper, we outline the entire process of developing a manually annotated sentiment corpus, SentiPers, which covers formal and informal written contemporary Persian. To the best of our knowledge, SentiPers is a unique sentiment corpus with such a rich annotation in three different levels including document-level, sentence-level, and entity/aspect-level for Persian. The corpus contains more than 26000 sentences of users opinions from digital product domain and benefits from special characteristics such as quantifying the positiveness or negativity of an opinion through assigning a number within a specific range to any given sentence. Furthermore, we present statistics on various components of our corpus as well as studying the inter-annotator agreement among the annotators. Finally, some of the challenges that we faced during the annotation process will be discussed as well.
研究动机与目标
- 为解决波斯语这一低资源语言中高质量、人工标注的情感资源稀缺的问题。
- 开发一个涵盖多个领域、正式与非正式书面波斯语的综合性情感语料库。
- 通过提供多层次标注(文档级、句子级和方面级)来支持高级情感分析技术。
- 通过在指定范围内的连续数值得分量化情感极性,以提高精度。
- 通过严格的标注者间一致性评估和对标注挑战的详细记录,确保可靠性。
提出的方法
- 从波斯语数字产品评论中手动标注超过 26,000 个句子。
- 采用三级标注机制:文档级、句子级和实体/方面级情感分类。
- 使用连续情感得分(例如,在 -1 到 +1 的范围内)来量化情感的正负程度。
- 实施严格的标注指南和质量控制程序,以确保一致性。
- 使用统计度量(如 Fleiss’ Kappa)计算标注者间一致性,以验证可靠性。
- 收集并分析人口统计和语言学数据,以支持语料库的代表性及标注质量。
实验结果
研究问题
- RQ1如何系统性地构建一个大规模、多层次的情感语料库,用于波斯语这一低资源语言?
- RQ2在波斯语的多粒度情感标注中,可达到怎样的标注者间一致性水平?
- RQ3连续情感得分的引入在多大程度上提升了情感语料库在自然语言处理任务中的实用性?
- RQ4在多个层级上对非正式和正式波斯语文本进行情感标注时面临的主要挑战是什么?
- RQ5SentiPers 语料库在训练和评估波斯语情感分析模型方面,具有多大程度的代表性和可靠性?
主要发现
- SentiPers 语料库包含来自数字产品评论的超过 26,000 个标注句子,涵盖正式和非正式波斯语等多种语言风格。
- 标注者间一致性达到显著水平,Fleiss’ Kappa 分数在所有标注层级上均显示高度可靠性。
- 使用连续情感得分(范围从 -1 到 +1)可实现细粒度的情感表示,从而增强模型的训练与评估效果。
- 该语料库展现出高度的语言多样性,并涵盖数字产品的多个方面,支持细粒度情感分析。
- 作者识别出在标注非正式语言、反语和隐含情感方面存在显著挑战,这些挑战已记录以供未来研究参考。
- 该语料库已公开发布,并已被接受在沙里夫科技大学生第 3 届计算语言学会议展示。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。