Skip to main content
QUICK REVIEW

[论文解读] A Large Self-Annotated Corpus for Sarcasm

Mikhail Khodak, Nikunj Saunshi|arXiv (Cornell University)|Apr 19, 2017
Sentiment Analysis and Opinion Mining参考文献 17被引用 133
一句话总结

介绍 SARC,这是一个大型自注释的基于 Reddit 的讽刺检测语料库,包含 1.3 百万条讽刺评论及丰富的上下文,并提供基线结果与基准。它分析数据质量,与其他来源比较,并提供讽刺任务的基线和人工表现。

ABSTRACT

We introduce the Self-Annotated Reddit Corpus (SARC), a large corpus for sarcasm research and for training and evaluating systems for sarcasm detection. The corpus has 1.3 million sarcastic statements -- 10 times more than any previous dataset -- and many times more instances of non-sarcastic statements, allowing for learning in both balanced and unbalanced label regimes. Each statement is furthermore self-annotated -- sarcasm is labeled by the author, not an independent annotator -- and provided with user, topic, and conversation context. We evaluate the corpus for accuracy, construct benchmarks for sarcasm detection, and evaluate baseline methods.

研究动机与目标

  • 提供一个来自 Reddit 的大规模自注释讽刺数据集,以支持检测研究。
  • 评估自注释讽刺标签相对于其他来源的数据质量和噪声。
  • 创建基准并评估简单基线和人工在讽刺检测任务中的表现。

提出的方法

  • 使用 '/s' 标记作为注释信号,从 Reddit 构建自注释讽刺语料库。
  • 应用过滤以降低噪声,并排除讽刺评论的子评论,以避免注释级联。
  • 提供原始数据文件和用于评估的结构化子集,包括对话上下文和元数据。
  • 使用词袋、二元词袋和句子嵌入来评估基线分类器,并与人类表现进行比较。
  • 创建平衡和不平衡的评估设置,以及一个政治子集以测试主题驱动的难度。

实验结果

研究问题

  • RQ1自注释讽刺语料库在保持可用标签质量的情况下可以有多大?
  • RQ2上下文和对话结构对讽刺检测性能有何影响?
  • RQ3使用自注释的 Reddit 数据时,简单基线与人类在讽刺检测上的表现有何差异?
  • RQ4标签平衡(平衡与不平衡)对讽刺检测基准有何影响?
  • RQ5主题领域(如政治)是否会影响人类和机器对讽刺的可检测性?

主要发现

  • SARC 语料库大约包含 134 万条讽刺评论以及 5.33 亿条总评论,远大于以往数据集。
  • 人工评估显示自注释方法的假阳性率为 1.0%,假阴性率为 2.0%,表明噪声可管理但存在显著挑战。
  • 基线方法(词袋、二元词袋、句子嵌入)在准确性上高于随机,但低于人类表现。
  • 人类评估者的准确性高于机器基线,评注者间一致性中等(Fleiss κ 约 0.5 在所有子 Reddit 上,约 0.67 在 politics)。
  • 上下文和主题信息提升检测性能,在某些子集上,人大多数组合投票可以超过单一主题的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。