QUICK REVIEW

[论文解读] Really? Well. Apparently Bootstrapping Improves the Performance of Sarcasm and Nastiness Classifiers for Online Dialogue

Stephanie M. Lukin, Marilyn Walker|arXiv (Cornell University)|Aug 29, 2017

Mobile Crowdsensing and Crowdsourcing参考文献 18被引用 24

一句话总结

本文提出一种自举方法，通过结合众包语言线索与句法模式泛化，提升在线对话中讽刺与粗鄙语气的分类性能。该方法在讽刺识别上达到62%的精确率与52%的召回率，在粗鄙语气识别上达到75%的精确率与62%的召回率，表明基于模式的自举方法显著优于初始的线索分类器。

ABSTRACT

More and more of the information on the web is dialogic, from Facebook newsfeeds, to forum conversations, to comment threads on news articles. In contrast to traditional, monologic Natural Language Processing resources such as news, highly social dialogue is frequent in social media, making it a challenging context for NLP. This paper tests a bootstrapping method, originally proposed in a monologic domain, to train classifiers to identify two different types of subjective language in dialogue: sarcasm and nastiness. We explore two methods of developing linguistic indicators to be used in a first level classifier aimed at maximizing precision at the expense of recall. The best performing classifier for the first phase achieves 54% precision and 38% recall for sarcastic utterances. We then use general syntactic patterns from previous work to create more general sarcasm indicators, improving precision to 62% and recall to 52%. To further test the generality of the method, we then apply it to bootstrapping a classifier for nastiness dialogic acts. Our first phase, using crowdsourced nasty indicators, achieves 58% precision and 49% recall, which increases to 75% precision and 62% recall when we bootstrap over the first level with generalized syntactic patterns.

研究动机与目标

开发一种可扩展的方法，用于识别社交媒体文本中常见但具有挑战性的讽刺与粗鄙语气。
将原本用于主观句子检测的单向自举方法，适配至更具复杂性的对话式会话文本场景。
评估句法模式泛化是否能超越初始人工标注线索，在分类器性能上带来显著提升。
通过在两种不同类型的主观语言（讽刺与粗鄙）上应用该方法，测试其泛化能力。
探索语义类别（如LIWC）是否能在句法模式基础上进一步提升性能。

提出的方法

从互联网论争语料库的问答对中，通过Mechanical Turk众包标注者收集讽刺与粗鄙语气的语言指示符（线索词/短语）。
利用统计度量（如互信息）对人工标注的线索进行训练，构建高精确率、低召回率的分类器，以牺牲召回率为代价最大化精确率。
将第一阶段分类器的输出输入模式提取器，从已识别的讽刺/粗鄙语句中学习泛化的句法模式。
利用提取的句法模式训练第二阶段分类器，提升其泛化能力，同时改善精确率与召回率。
通过在新分类数据上重新训练模式提取器，迭代重复自举过程，尽管此部分留待未来工作。
在保留的开发集上，通过精确率、召回率与F1值对比线索分类器与模式分类器的性能。

实验结果

研究问题

RQ1原本为单向文本设计的自举方法，能否有效适配至在线对话中的讽刺与粗鄙语气分类？
RQ2利用句法模式从初始语言线索中进行泛化，是否能显著提升分类器在精确率与召回率上的表现？
RQ3所提方法的性能指标与先前单向讽刺检测研究相比如何，特别是在精确率与召回率方面？
RQ4该方法是否具有跨不同主观对话行为类型（如讽刺与粗鄙）的泛化能力？
RQ5语义类别（如LIWC）是否能在句法模式基础上进一步提升性能？

主要发现

初始基于线索的分类器在讽刺识别上达到54%精确率与38%召回率，表明精确率较强但召回率有限。
经过句法模式自举后，讽刺分类器性能提升至62%精确率与52%召回率，精确率提升17%，召回率提升24%。
对于粗鄙语气，初始分类器达到58%精确率与49%召回率，经模式自举后提升至75%精确率与62%召回率，精确率提升14%，召回率提升13%。
基于模式的分类器优于基于线索的分类器，表明句法泛化能有效捕捉主观对话中的更广泛语言模式。
该方法在不同类型主观语言上具有良好的泛化能力，讽刺与粗鄙识别任务中均表现出一致的性能提升。
结果表明粗鄙语气可能比讽刺更易检测，因为其精确率提升更为显著，可能由于辱骂性语言的语义更直接、更少语义细微差别。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。