[论文解读] Modeling Trolling in Social Media Conversations
本文提出了一种用于建模社交媒体中网络挑衅行为的新型四维框架,同时分析挑衅者意图与回应者对意图的理解及反应。该研究首次公开发布了一个标注了网络挑衅意图、意图披露、回应者理解及回应策略的Reddit对话标注数据集,使从挑衅者与回应者双重视角进行挑衅行为的计算建模成为可能。
Social media websites, electronic newspapers and Internet forums allow visitors to leave comments for others to read and interact. This exchange is not free from participants with malicious intentions, who troll others by positing messages that are intended to be provocative, offensive, or menacing. With the goal of facilitating the computational modeling of trolling, we propose a trolling categorization that is novel in the sense that it allows comment-based analysis from both the trolls' and the responders' perspectives, characterizing these two perspectives using four aspects, namely, the troll's intention and his intention disclosure, as well as the responder's interpretation of the troll's intention and her response strategy. Using this categorization, we annotate and release a dataset containing excerpts of Reddit conversations involving suspected trolls and their interactions with other users. Finally, we identify the difficult-to-classify cases in our corpus and suggest potential solutions for them.
研究动机与目标
- 开发一个全面的挑衅计算模型,以捕捉挑衅者的意图以及回应者的感知与反应。
- 创建一个新的Reddit对话标注数据集,标注维度包括:挑衅意图、意图披露、回应者对意图的理解以及回应策略。
- 识别并分析挑衅分类中的挑战性案例,特别是涉及意图模糊、感知冒犯以及复杂回应动态的情况。
- 通过发布一个公开可用的高质量标注资源,激发自然语言处理领域对挑衅行为的进一步研究。
提出的方法
- 提出一种四维挑衅分类体系:挑衅者的意图、意图披露、回应者对意图的理解以及回应者的应对策略。
- 收集并标注涉及疑似挑衅者的Reddit对话片段,包含上下文信息及即时回应。
- 使用最先进的自然语言处理特征(包括词袋模型和GloVe词嵌入)训练多分类分类器。
- 分析误分类样本,识别在意图披露、理解与应对策略预测中的关键挑战。
- 探索相关任务(如理解与应对策略)的联合建模,以提升性能。
- 提出解决方案,如采用更深层次的语义表示和对话序列的时间建模,以缓解分类错误。
实验结果
研究问题
- RQ1如何在在线对话中系统性地从挑衅者和回应者双重视角建模挑衅行为?
- RQ2哪些语言和上下文线索能够有效区分不同类型的挑衅行为及其回应?
- RQ3哪些案例最难以分类,其背后的根本原因是什么?
- RQ4联合建模意图、感知与回应能否提升分类性能?
- RQ5对话历史与时间动态在理解挑衅行为中起到何种作用?
主要发现
- 所提出的四维框架通过捕捉挑衅者的意图以及回应者的感知与反应,实现了对挑衅行为更细致的计算建模。
- 本研究发布的数据集是首个同时包含挑衅侧与回应侧维度标注的同类数据集。
- 意图披露预测的错误源于浅层语义表示;需要更深层次的语义建模以推断隐含意义(如'一枪毙命'被理解为冒犯性表达)。
- 将'挫败'与'中和'两类回应策略区分开来较为微妙,尤其在批评间接时常被误分类。
- 当回应者变得具有攻击性时,'挑衅'与'参与'回应之间的界限变得模糊,而更长的对话序列是此类升级的关键指标。
- 使用回应历史和时间序列等上下文特征可提升分类性能,特别是在模糊或高冲突互动中。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。