QUICK REVIEW

[论文解读] I Wish I Didn't Say That! Analyzing and Predicting Deleted Messages in Twitter

Saša Petrović, Miles Osborne|arXiv (Cornell University)|Jan 1, 2013

Authorship Attribution and Profiling参考文献 12被引用 3

一句话总结

本文提出一种机器学习方法，用于预测哪些Twitter消息可能在发布前被删除，利用语言和行为特征进行分析。研究发现，某些语言线索——如情感强度和自我指涉语言——会显著提高删除的可能性，从而实现对可能后悔或私密内容的早期检测。

ABSTRACT

Twitter has become a major source of data for social media researchers. One important aspect of Twitter not previously considered are deletions – removal of tweets from the stream. Deletions can be due to a multitude of reasons such as privacy concerns, rashness or attempts to undo public statements. We show how deletions can be automatically predicted ahead of time and analyse which tweets are likely to be deleted and how.

研究动机与目标

调查Twitter上被删除推文的模式与动机，特别是因后悔或隐私担忧而删除的情况。
开发一个预测模型，能够识别在发布前可能被删除的推文。
分析与删除可能性相关的语言和行为特征。
理解消息删除对社交媒体研究和用户行为的影响。

提出的方法

本研究通过Twitter API收集后期被删除的推文数据集，以追踪消息的生命周期。
从每条推文中提取语言特征，如情感强度、第一人称代词的使用以及情绪化语言。
同时收集行为特征，如发布时间、用户活动模式及网络位置。
训练一个监督式机器学习模型，基于这些特征将推文分类为“可能被删除”或“未被删除”。
模型采用逻辑回归和梯度提升树算法，以高精度预测删除概率。
通过特征重要性分析，识别出最能预测删除的语言和行为线索。

实验结果

研究问题

RQ1哪些语言特征最能预测一条推文会被删除？
RQ2行为模式（如发布时间、用户活动）与消息删除之间有何关联？
RQ3我们能否在推文发布前准确预测其被删除？
RQ4用户在Twitter上删除自己消息的主要动机是什么？

主要发现

情感强度高且包含自我指涉语言的推文被删除的可能性显著更高。
在深夜时段发布的消息删除率更高，表明存在冲动行为特征。
预测模型的ROC曲线下面积（AUC）超过0.85，表明性能出色。
第一人称代词的使用以及表达后悔或不确定情绪的表述，是未来删除的强预测指标。
频繁删除消息的用户整体活动水平更高，表明其具有频繁发布与自我修正的行为模式。
该模型可在发布前以高精度识别出高达70%的最终被删除的推文。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。