[论文解读] A Large Self-Annotated Corpus for Sarcasm
介绍 SARC,这是一个大型自注释的基于 Reddit 的讽刺检测语料库,包含 1.3 百万条讽刺评论及丰富的上下文,并提供基线结果与基准。它分析数据质量,与其他来源比较,并提供讽刺任务的基线和人工表现。
We introduce the Self-Annotated Reddit Corpus (SARC), a large corpus for sarcasm research and for training and evaluating systems for sarcasm detection. The corpus has 1.3 million sarcastic statements -- 10 times more than any previous dataset -- and many times more instances of non-sarcastic statements, allowing for learning in both balanced and unbalanced label regimes. Each statement is furthermore self-annotated -- sarcasm is labeled by the author, not an independent annotator -- and provided with user, topic, and conversation context. We evaluate the corpus for accuracy, construct benchmarks for sarcasm detection, and evaluate baseline methods.
研究动机与目标
- 提供一个来自 Reddit 的大规模自注释讽刺数据集,以支持检测研究。
- 评估自注释讽刺标签相对于其他来源的数据质量和噪声。
- 创建基准并评估简单基线和人工在讽刺检测任务中的表现。
提出的方法
- 使用 '/s' 标记作为注释信号,从 Reddit 构建自注释讽刺语料库。
- 应用过滤以降低噪声,并排除讽刺评论的子评论,以避免注释级联。
- 提供原始数据文件和用于评估的结构化子集,包括对话上下文和元数据。
- 使用词袋、二元词袋和句子嵌入来评估基线分类器,并与人类表现进行比较。
- 创建平衡和不平衡的评估设置,以及一个政治子集以测试主题驱动的难度。
实验结果
研究问题
- RQ1自注释讽刺语料库在保持可用标签质量的情况下可以有多大?
- RQ2上下文和对话结构对讽刺检测性能有何影响?
- RQ3使用自注释的 Reddit 数据时,简单基线与人类在讽刺检测上的表现有何差异?
- RQ4标签平衡(平衡与不平衡)对讽刺检测基准有何影响?
- RQ5主题领域(如政治)是否会影响人类和机器对讽刺的可检测性?
主要发现
- SARC 语料库大约包含 134 万条讽刺评论以及 5.33 亿条总评论,远大于以往数据集。
- 人工评估显示自注释方法的假阳性率为 1.0%,假阴性率为 2.0%,表明噪声可管理但存在显著挑战。
- 基线方法(词袋、二元词袋、句子嵌入)在准确性上高于随机,但低于人类表现。
- 人类评估者的准确性高于机器基线,评注者间一致性中等(Fleiss κ 约 0.5 在所有子 Reddit 上,约 0.67 在 politics)。
- 上下文和主题信息提升检测性能,在某些子集上,人大多数组合投票可以超过单一主题的表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。