QUICK REVIEW

[论文解读] A Large Self-Annotated Corpus for Sarcasm

Mikhail Khodak, Nikunj Saunshi|arXiv (Cornell University)|Apr 19, 2017

Sentiment Analysis and Opinion Mining参考文献 17被引用 133

一句话总结

介绍 SARC，这是一个大型自注释的基于 Reddit 的讽刺检测语料库，包含 1.3 百万条讽刺评论及丰富的上下文，并提供基线结果与基准。它分析数据质量，与其他来源比较，并提供讽刺任务的基线和人工表现。

ABSTRACT

We introduce the Self-Annotated Reddit Corpus (SARC), a large corpus for sarcasm research and for training and evaluating systems for sarcasm detection. The corpus has 1.3 million sarcastic statements -- 10 times more than any previous dataset -- and many times more instances of non-sarcastic statements, allowing for learning in both balanced and unbalanced label regimes. Each statement is furthermore self-annotated -- sarcasm is labeled by the author, not an independent annotator -- and provided with user, topic, and conversation context. We evaluate the corpus for accuracy, construct benchmarks for sarcasm detection, and evaluate baseline methods.

研究动机与目标

提供一个来自 Reddit 的大规模自注释讽刺数据集，以支持检测研究。
评估自注释讽刺标签相对于其他来源的数据质量和噪声。
创建基准并评估简单基线和人工在讽刺检测任务中的表现。

提出的方法

使用 '/s' 标记作为注释信号，从 Reddit 构建自注释讽刺语料库。
应用过滤以降低噪声，并排除讽刺评论的子评论，以避免注释级联。
提供原始数据文件和用于评估的结构化子集，包括对话上下文和元数据。
使用词袋、二元词袋和句子嵌入来评估基线分类器，并与人类表现进行比较。
创建平衡和不平衡的评估设置，以及一个政治子集以测试主题驱动的难度。

实验结果

研究问题

RQ1自注释讽刺语料库在保持可用标签质量的情况下可以有多大？
RQ2上下文和对话结构对讽刺检测性能有何影响？
RQ3使用自注释的 Reddit 数据时，简单基线与人类在讽刺检测上的表现有何差异？
RQ4标签平衡（平衡与不平衡）对讽刺检测基准有何影响？
RQ5主题领域（如政治）是否会影响人类和机器对讽刺的可检测性？

主要发现

SARC 语料库大约包含 134 万条讽刺评论以及 5.33 亿条总评论，远大于以往数据集。
人工评估显示自注释方法的假阳性率为 1.0%，假阴性率为 2.0%，表明噪声可管理但存在显著挑战。
基线方法（词袋、二元词袋、句子嵌入）在准确性上高于随机，但低于人类表现。
人类评估者的准确性高于机器基线，评注者间一致性中等（Fleiss κ 约 0.5 在所有子 Reddit 上，约 0.67 在 politics）。
上下文和主题信息提升检测性能，在某些子集上，人大多数组合投票可以超过单一主题的表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。