QUICK REVIEW

[论文解读] Characterizing Linguistic Attributes for Automatic Classification of Intent Based Racist/Radicalized Posts on Tumblr Micro-Blogging Website

Swati Agarwal, Ashish Sureka|arXiv (Cornell University)|Jan 18, 2017

Hate Speech and Cyberbullying Detection参考文献 8被引用 48

一句话总结

本文提出一种级联集成学习方法，通过分析语言特征、情感倾向和人格特质，自动分类英文Tumblr微博中的种族主义和极端化意图。该方法以情绪基调、写作线索和社会倾向作为最具区分性的特征，相较于基于关键词的方法，在识别模糊或反讽内容背后的意图方面实现了更高的精确度。

ABSTRACT

Research shows that many like-minded people use popular microblogging websites for posting hateful speech against various religions and race. Automatic identification of racist and hate promoting posts is required for building social media intelligence and security informatics based solutions. However, just keyword spotting based techniques cannot be used to accurately identify the intent of a post. In this paper, we address the challenge of the presence of ambiguity in such posts by identifying the intent of author. We conduct our study on Tumblr microblogging website and develop a cascaded ensemble learning classifier for identifying the posts having racist or radicalized intent. We train our model by identifying various semantic, sentiment and linguistic features from free-form text. Our experimental results shows that the proposed approach is effective and the emotion tone, social tendencies, language cues and personality traits of a narrative are discriminatory features for identifying the racist intent behind a post.

研究动机与目标

解决在关键词方法失效的模糊、短文本社交媒体帖子中识别种族主义和极端化意图的挑战。
开发一种级联集成学习分类器，以超越传统技术提升意图分类的准确性。
识别并验证能够区分仇恨言论与非仇恨叙事的语言、情感和人格特征。
通过主题分类过滤非主题相关或噪声内容，提升意图检测效果。
通过实现对具有细微意图理解的有害内容自动化检测，支持社交媒体情报与安全信息学。

提出的方法

本研究采用两级单类分类框架，结合级联集成学习，检测Tumblr微博中的意图。
使用开源API提取语言特征，包括情感倾向、情绪基调、语义标注、写作线索和社会倾向。
通过特征级集成策略结合多种分类器（决策树、朴素贝叶斯和随机森林），以提升模型鲁棒性。
通过系统性地移除单个或成对的特征向量，分析特征重要性，评估其对精确度和性能的影响。
应用主题分类以过滤非主题相关或噪声内容，提升整体分类器的准确性。
该方法整合标签级分析和标签中的句子检测，以丰富语言特征提取。

实验结果

研究问题

RQ1在微博中，哪些语言、情感和人格特征最能有效区分种族主义或极端化意图与非仇恨叙事？
RQ2当关键特征（如情绪基调或写作线索）被移除时，意图分类的性能如何变化？
RQ3主题分类及非主题帖子的过滤在多大程度上提升了意图检测的精确度？
RQ4模糊或反讽性帖子如何影响意图分类的可靠性？语言特征在多大程度上可缓解此问题？
RQ5级联特征选择的集成学习是否能超越单分类器或基于关键词的方法，在检测微妙仇恨言论意图方面表现更优？

主要发现

情绪基调、写作线索和社会人格特质在所有分类器和数据集中始终是最具区分性的特征。
单独移除特征F1（写作线索）使Test-Data1的精确度下降6%，Test-Data2下降2.25%，表明其具有显著的正面影响。
在决策树中，特征F1对其他特征产生负面影响，表明其在特征交互中可能存在干扰。
在朴素贝叶斯中，社会基调（F5）在与其他特征组合时性能下降，但与F3或F4组合时，准确率提升1%至2%。
在随机森林中，无论移除哪两个特征（包括F3（情绪基调）或F4（写作线索）），性能均至少下降4%，证实其关键作用。
语义标注（F2）和社会倾向（F5）对于主题广泛或情感范围较广的帖子尤为重要，有助于降低分类中的模糊性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。