[论文解读] Setting the Record Straighter on Shadow Banning
该论文使用大规模的黑箱数据收集(>250万资料档案)来评估 Twitter 的影子封禁的合理性,并将一个基于错误的假设与一个基于拓扑的封禁流行病模型进行比较。
Shadow banning consists for an online social network in limiting the visibility of some of its users, without them being aware of it. Twitter declares that it does not use such a practice, sometimes arguing about the occurrence of "bugs" to justify restrictions on some users. This paper is the first to address the plausibility or not of shadow banning on a major online platform, by adopting both a statistical and a graph topological approach. We first conduct an extensive data collection and analysis campaign, gathering occurrences of visibility limitations on user profiles (we crawl more than 2.5 million of them). In such a black-box observation setup, we highlight the salient user profile features that may explain a banning practice (using machine learning predictors). We then pose two hypotheses for the phenomenon: i) limitations are bugs, as claimed by Twitter, and ii) shadow banning propagates as an epidemic on user-interactions ego-graphs. We show that hypothesis i) is statistically unlikely with regards to the data we collected. We then show some interesting correlation with hypothesis ii), suggesting that the interaction topology is a good indicator of the presence of groups of shadow banned users on the service.
研究动机与目标
- 在可扩展爬虫的帮助下,量化跨多个 Twitter 用户群体的影子封禁盛行率。
- 通过可解释的机器学习识别预测影子封禁状态的个人资料特征。
- 检验影子封禁的两种 competing 假设:随机错误(H0) versus 拓扑驱动的传播性传播(H1)。
- 分析自我图(ego-graph)拓扑以理解被封禁用户之间的聚类和共现模式。
提出的方法
- 开发一个可扩展的爬虫以检测三种封禁类型(Suggestion Ban、Search Ban、Ghost Ban),若观察到任一类型则将用户分类为被封禁。
- 从四个人群(FAMOUS、RANDOM、BOTS、DEPUTEES)收集数据,并对地标周围的自我图进行取样。
- 将 Twitter 表示为一个互动图 G_Twitter,并通过对地标进行深度受限 BFS 提取1-2跳的自我图。
- 使用18个用户资料特征并训练可解释的分类器(随机森林、AdaBoost、决策树)来预测影子封禁状态。
- 拟合一个 SI(易感/感染)流行病模型,参数为 p0(初始感染)和 β(传染),以解释封禁的拓扑聚集。
实验结果
研究问题
- RQ1Twitter 上的影子封禁是符合随机性(错误假设,即 H0)的一种现象,还是在互动图中表现出局部性和聚类(H1)?
- RQ2不同人群和自我图中影子封禁档案的盛行率是多少?
- RQ3哪些用户资料特征最能预测影子封禁状态,它们的信号是否与封禁的拓扑模式一致?
- RQ4类流行病的 SI 模型在捕捉观察到的封禁共现与拓扑结构方面的表现如何?
主要发现
- 被影子封禁的用户出现在所有人群和自我图中,但盛行率各异(FAMOUS 0.74%、RANDOM 2.34%、BOTS 1.97%、DEPUTEES 0.50%)。
- 被封禁节点的邻居中被封禁的比例比未被封禁节点更高,提示封禁在拓扑上具有聚类性。
- 随机错误假设(H0)在统计上不太可能成立,因为许多自我图在均匀分布下显示出不太可能的被封禁集中情况;某些图包含非常高或非常低的被封禁节点份额。
- 一个带参数 p0 ≈ 0.015 和 β ≈ 0.0955 的类流行病 SI 模型(H1)很好地拟合观测数据,表明局部污染效应使被封禁的邻居增加被封禁的可能性。
- 使用18个个人资料特征的机器学习预测变量在预测被封禁状态方面达到高达 80.6% 的准确率(随机森林),表明公开个人资料数据中存在有意义但并非完美的信号。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。