Skip to main content
QUICK REVIEW

[论文解读] Automatic Sarcasm Detection: A Survey

Aditya Joshi, Pushpak Bhattacharyya|arXiv (Cornell University)|Feb 10, 2016
Identification and Quantification in Food参考文献 42被引用 109
一句话总结

本综述汇编了以往在自动讽刺检测方面的工作,涵盖问题定义、数据集、方法(基于规则、统计、深度学习)、趋势(模式发现与上下文使用)以及未解决的问题。

ABSTRACT

Automatic sarcasm detection is the task of predicting sarcasm in text. This is a crucial step to sentiment analysis, considering prevalence and challenges of sarcasm in sentiment-bearing text. Beginning with an approach that used speech-based features, sarcasm detection has witnessed great interest from the sentiment analysis community. This paper is the first known compilation of past work in automatic sarcasm detection. We observe three milestones in the research so far: semi-supervised pattern extraction to identify implicit sentiment, use of hashtag-based supervision, and use of context beyond target text. In this paper, we describe datasets, approaches, trends and issues in sarcasm detection. We also discuss representative performance values, shared tasks and pointers to future work, as given in prior works. In terms of resources that could be useful for understanding state-of-the-art, the survey presents several useful illustrations - most prominently, a table that summarizes past papers along different dimensions such as features, annotation techniques, data forms, etc.

研究动机与目标

  • 总结自动讽刺检测研究的目标与动机。
  • 编目用于讽刺检测的数据集、问题表述及标注方法。
  • 回顾方法论方法(基于规则、统计学和基于深度学习的类别)及其特征。
  • 识别主要趋势(模式发现、话题标签监督、上下文整合)及普遍的问题。
  • 为尖端讽刺检测研究的未来方向和资源提供指导。

提出的方法

  • 对讽刺检测研究进行从数据集到方法的全面文献综述。
  • 将方法分为基于规则、统计方法和基于深度学习的类别。
  • 讨论用于讽刺指示符的模式发现技术及其作为特征或规则的用途。
  • 检查目标文本之外的上下文信息的作用(作者、对话、话题上下文)。
  • 通过一个跨维度的过去论文整合表来说明资源(特征、注释、数据形式)。
  • 总结报道的性能和共享任务,以定位最前沿。

实验结果

研究问题

  • RQ1在讽刺检测中使用了哪些数据集(短文本、长文本、其他),并且它们是如何标注的?
  • RQ2哪些特征和学习算法在不同数据形式的讽刺检测中已被证明有效?
  • RQ3目标文本之外的上下文信息是如何被融入的,以及它有什么影响?
  • RQ4在讽刺检测中出现了哪些趋势和问题,包括数据标注与注释的可靠性?
  • RQ5存在哪些共享任务,它们对该领域的现状揭示了什么?

主要发现

  • 推文是讽刺检测的主要数据形式,同时也研究了长文本和其他数据集。
  • 基于话题标签的监督被广泛用于标注讽刺内容,尽管质量存在担忧且跨数据集的验证很常见。
  • 目标文本之外的上下文,如作者历史、对话上下文和话题上下文,已成为一个关键趋势。
  • 从基于规则到有监督/半监督方法的演进,以模式发现作为核心技术标志着早期工作;近期研究强调上下文信息。
  • 已经探索了多种特征(单个词、情感词典、模式、语义相关性,甚至是眼动追踪衍生特征)和分类器(SVM、朴素贝叶斯、逻辑回归、序列模型),其性能因数据和任务而异。
  • 深度学习方法开始出现,利用词嵌入、用户嵌入和混合架构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。