Skip to main content
QUICK REVIEW

[論文レビュー] Setting the Record Straighter on Shadow Banning

Erwan Le Merrer, Benoît Morgan|arXiv (Cornell University)|Dec 9, 2020
Spam and Phishing Detection参考文献 22被引用数 30
ひとこと要約

本論文は、2.5百万を超えるプロファイルを対象とした大規模なブラックボックスデータ収集を用いて、Twitter でのシャドウバンの妥当性を評価し、バグベースの仮説とトポロジー主導のエピデミックモデルを比較する。

ABSTRACT

Shadow banning consists for an online social network in limiting the visibility of some of its users, without them being aware of it. Twitter declares that it does not use such a practice, sometimes arguing about the occurrence of "bugs" to justify restrictions on some users. This paper is the first to address the plausibility or not of shadow banning on a major online platform, by adopting both a statistical and a graph topological approach. We first conduct an extensive data collection and analysis campaign, gathering occurrences of visibility limitations on user profiles (we crawl more than 2.5 million of them). In such a black-box observation setup, we highlight the salient user profile features that may explain a banning practice (using machine learning predictors). We then pose two hypotheses for the phenomenon: i) limitations are bugs, as claimed by Twitter, and ii) shadow banning propagates as an epidemic on user-interactions ego-graphs. We show that hypothesis i) is statistically unlikely with regards to the data we collected. We then show some interesting correlation with hypothesis ii), suggesting that the interaction topology is a good indicator of the presence of groups of shadow banned users on the service.

研究の動機と目的

  • 拡張可能なクローラーを用いて、複数の Twitter ユーザ集団におけるシャドウバンの蔓延を定量化する。
  • 説明可能な機械学習を用いて、シャドウバン状態を予測するプロフィール特徴を特定する。
  • シャドウバンの2つの競合仮説を検証する:ランダムなバグ(H0)対 トポロジー主導のエピデミック拡散(H1)。
  • シャドウバンされたユーザー間のクラスタリングと共起パターンを理解するために ego-グラフのトポロジーを分析する。

提案手法

  • 3種類のBANを検出できる拡張可能なクローラーを開発し (Suggestion Ban, Search Ban, Ghost Ban)、いずれかのタイプが観測された場合にユーザーを ban と分類する。
  • 4つの集団(FAMOUS, RANDOM, BOTS, DEPUTEES)からデータを収集し、ランドマーク周辺のエゴグラフを標本化する。
  • Twitter を相互作用グラフ G_Twitter として表現し、ランドマークからの深さ制限付き BFS によって1-2ホップのエゴグラフを抽出する。
  • 18のユーザープロフィール特徴を用い、説明可能な分類器(Random Forest, AdaBoost, Decision Tree)を訓練してシャドウバン状態を予測する。
  • パラメータ p0(初期感染)と β(感染性)をもつSI(Susceptible/Infected)エピデミックモデルを適合させ、バンのトポロジー的クラスタリングを説明する。

実験結果

リサーチクエスチョン

  • RQ1Twitter 上のシャドウバンはバグ(H0)に一致するランダムな現象ですか、それとも相互作用グラフに局所性とクラスタリングを示しますか(H1)?
  • RQ2異なる集団とエゴグラフにおけるシャドウバンされたプロフィールの蔓延率はどの程度ですか?
  • RQ3シャドウバン状態を最も予測するユーザープロフィール特徴はどれで、それらのシグナルはバンのトポロジーパターンと整合しますか?
  • RQ4エピデミック様のSIモデルは観測された共起とバンのトポロジーをどれくらい適切に再現しますか?

主な発見

  • シャドウバンされたユーザーはすべての集団とエゴグラフに出現し、蔓延率は以下のとおり変動する(FAMOUS 0.74%、RANDOM 2.34%、BOTS 1.97%、DEPUTEES 0.50%)。
  • バンされたノードの近傍のうちバンされている割合は、非バンノードよりもバンノードで高く、バンのトポロジー的クラスタリングを示唆する。
  • ランダムバグ仮説(H0)は統計的にありそうにない。多くのエゴグラフで一様分布の下でのバンの濃度が不自然に偏っており、非常に高いまたは非常に低いシャドウバンノード比を含むグラフもある。
  • パラメータ p0 ≈ 0.015 と β ≈ 0.0955 を持つエピデミック様の SIモデル(H1)は観測データに良く適合し、バンされた近傍がバンを引き起こす局所的な汚染効果を示している。
  • 18のプロフィール特徴を用いる機械学習予測子は、バン状態予測で最大80.6%の精度(Random Forest)を達成し、公開プロフィールデータに意味のある信号があるが完璧ではないことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。