Skip to main content
QUICK REVIEW

[论文解读] A Corpus of English-Hindi Code-Mixed Tweets for Sarcasm Detection

Sahil Swami, Ankush Khandelwal|arXiv (Cornell University)|May 30, 2018
Sentiment Analysis and Opinion Mining参考文献 6被引用 26
一句话总结

本文提出了首个用于讽刺检测的英印混合社交媒体文本语料库,并附有讽刺标签和词粒级语言标签,实现了多语言社交媒体文本中的讽刺检测。采用10折交叉验证的监督随机森林分类器,系统在该数据集上的平均F值达到78.4,为印地语混合多语言文本中的讽刺检测建立了基线。

ABSTRACT

Social media platforms like twitter and facebook have be- come two of the largest mediums used by people to express their views to- wards different topics. Generation of such large user data has made NLP tasks like sentiment analysis and opinion mining much more important. Using sarcasm in texts on social media has become a popular trend lately. Using sarcasm reverses the meaning and polarity of what is implied by the text which poses challenge for many NLP tasks. The task of sarcasm detection in text is gaining more and more importance for both commer- cial and security services. We present the first English-Hindi code-mixed dataset of tweets marked for presence of sarcasm and irony where each token is also annotated with a language tag. We present a baseline su- pervised classification system developed using the same dataset which achieves an average F-score of 78.4 after using random forest classifier and performing 10-fold cross validation.

研究动机与目标

  • 解决英语-印地语混合社交媒体文本中讽刺检测缺乏标注资源的问题。
  • 收集并人工标注大规模推文语料,包含讽刺标签和词粒级语言标签。
  • 开发用于混合多语言文本中讽刺检测的基线监督分类系统。
  • 评估各种语言特征(n-gram、表情符号、讽刺指示词)对讽刺检测性能的影响。
  • 提供公开可获取的数据集和模型,以支持未来在混合语言讽刺检测和语言识别方面的研究。

提出的方法

  • 使用Twitter Scraper API通过标签#sarcasm和#irony,以及与政治、板球和宝莱坞相关的关键词收集推文。
  • 使用'YES'或'NO'标签对每条推文进行人工标注以判断是否存在讽刺,实现标注者间一致性Cohen’s Kappa为0.79。
  • 使用空格对推文进行分词,并为每个词粒手动分配语言标签(英语/印地语)。
  • 提取四类特征:字符n-gram(n=1–3,频率≥8)、词n-gram(n=1–3,频率≥8)、讽刺指示词(得分≥0.6,频率≥5)以及27种预定义表情符号。
  • 应用卡方特征选择方法,将特征空间缩减至500维,以提高模型效率。
  • 在完整数据集上使用10折交叉验证,训练并评估三种分类器——RBF核SVM、线性SVM和随机森林。

实验结果

研究问题

  • RQ1监督分类系统在英语-印地语混合推文中的讽刺检测性能如何?
  • RQ2不同语言特征(n-gram、表情符号、讽刺指示词)对讽刺检测准确率的贡献如何?
  • RQ3多语言混合数据集是否能提升低资源语言设置下讽刺检测模型的鲁棒性?
  • RQ4特征选择对讽刺检测任务中模型性能的影响如何?
  • RQ5包含来自不同领域的真实讽刺和非讽刺推文,对模型泛化能力有何影响?

主要发现

  • 随机森林分类器在10折交叉验证下于数据集上实现了最高的平均F值78.4。
  • 在随机森林分类器中,词n-gram表现最佳,F值达到76.7。
  • 在RBF核SVM中,字符n-gram表现最佳,F值为73.1。
  • 讽刺指示词在线性SVM中表现良好,F值达到70.2。
  • 所有特征组合在RBF核SVM中实现76.5的F值,随机森林中为78.4,线性SVM中为71.7。
  • 该数据集表现出较强的标注者间一致性(Cohen’s Kappa = 0.79),验证了标注的可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。