[论文解读] Building a Sentiment Corpus of Tweets in Brazilian Portuguese
本文介绍了TweetSentBR,一个从巴西电视剧领域收集的15,000条巴西葡萄牙语推文的 manually annotated 情感语料库,分为正面、中性与负面三类。采用三种机器学习方法——朴素贝叶斯、支持向量机(SVM)以及混合方法,二分类任务中达到82.06%的准确率和80.99%的F值,三分类任务中达到64.62%的准确率和59.85%的F值,为巴西葡萄牙语的情感分析提供了宝贵的资源。
The large amount of data available in social media, forums and websites motivates researches in several areas of Natural Language Processing, such as sentiment analysis. The popularity of the area due to its subjective and semantic characteristics motivates research on novel methods and approaches for classification. Hence, there is a high demand for datasets on different domains and different languages. This paper introduces TweetSentBR, a sentiment corpora for Brazilian Portuguese manually annotated with 15.000 sentences on TV show domain. The sentences were labeled in three classes (positive, neutral and negative) by seven annotators, following literature guidelines for ensuring reliability on the annotation. We also ran baseline experiments on polarity classification using three machine learning methods, reaching 80.99% on F-Measure and 82.06% on accuracy in binary classification, and 59.85% F-Measure and 64.62% on accuracy on three point classification.
研究动机与目标
- 为解决社交媒体文本中缺乏高质量、人工标注的情感语料库的问题,特别是在巴西葡萄牙语语境下。
- 在电视剧领域创建一个平衡且特定领域的语料库,以支持葡萄牙语情感分析研究。
- 提供一个包含中性类别的资源,以反映现实世界数据的复杂性,提升分类器的鲁棒性。
- 支持在二分类与三分类情感分类任务中对机器学习模型进行评估。
- 支持对巴西葡萄牙语中讽刺、俚语及社交媒体特有表达等语言现象的研究。
提出的方法
- 语料库基于通过Twitter API收集的15,000条与巴西电视剧相关的推文构建。
- 由七名标注员根据标准化指南,将句子人工标注为三类:正面、中性与负面,以确保标注者间的一致性。
- 标注过程包括培训、指南制定与修订,以最小化标注错误并提高一致性。
- 评估了三种机器学习模型:朴素贝叶斯、使用线性核的支持向量机(SVM),以及结合词汇规则与SVM的混合分类器。
- 特征表示采用二值化词袋模型、情感词典、表情符号及词性(POS)标记。
- 使用Scikit-learn进行基线实验,性能通过二分类与三分类任务中的F值与准确率进行衡量。
实验结果
研究问题
- RQ1标准机器学习模型在巴西葡萄牙语电视剧推文情感分类中的有效性如何?
- RQ2在巴西葡萄牙语情感分类中,结合词汇规则与SVM的混合方法能取得怎样的性能?
- RQ3中性类别的引入如何影响情感分类的性能与模型泛化能力?
- RQ4哪些语言特征——如情感词、表情符号及特定表达——能区分巴西葡萄牙语中的正面、中性与负面推文?
- RQ5该语料库在多大程度上反映了现实社交媒体中的语言现象,如讽刺、俚语及用户特有表达?
主要发现
- 使用SVM分类器,语料库在二分类任务中达到80.99%的F值与82.06%的准确率。
- 在三分类任务(正面、中性、负面)中,最佳F值为59.85%,准确率为64.62%,分别由朴素贝叶斯与SVM实现。
- 混合分类器在二分类任务中达到76.84%的准确率与76.59%的F值,相较于SVM表现中等。
- 正面类别中最具区分性的词汇包括'amo'(爱)、'fofura'(可爱)、'linda'(美丽),而负面类别中的关键词包括'lixo'(垃圾)、'péssimo'(糟糕)、'tirem'(移除)。
- 中性类别包含高频率词汇,如节目名称、用户名及中性动词如'aparecer'(出现),反映了非观点性内容。
- 该语料库因其包含中性类别且聚焦于全新领域——巴西电视剧——而有别于现有资源,为语言学与建模研究带来了新的挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。