QUICK REVIEW

[논문 리뷰] Setting the Record Straighter on Shadow Banning

Erwan Le Merrer, Benoît Morgan|arXiv (Cornell University)|2020. 12. 09.

Spam and Phishing Detection참고 문헌 22인용 수 30

한 줄 요약

트위터에서 그림자 차단의 타당성을 대규모 블랙박스 데이터 수집(>2.5 million 프로필)으로 평가하고 버그 기반 가설과 토폴로지 기반 전염 모델의 차단 비교를 수행한다.

ABSTRACT

Shadow banning consists for an online social network in limiting the visibility of some of its users, without them being aware of it. Twitter declares that it does not use such a practice, sometimes arguing about the occurrence of "bugs" to justify restrictions on some users. This paper is the first to address the plausibility or not of shadow banning on a major online platform, by adopting both a statistical and a graph topological approach. We first conduct an extensive data collection and analysis campaign, gathering occurrences of visibility limitations on user profiles (we crawl more than 2.5 million of them). In such a black-box observation setup, we highlight the salient user profile features that may explain a banning practice (using machine learning predictors). We then pose two hypotheses for the phenomenon: i) limitations are bugs, as claimed by Twitter, and ii) shadow banning propagates as an epidemic on user-interactions ego-graphs. We show that hypothesis i) is statistically unlikely with regards to the data we collected. We then show some interesting correlation with hypothesis ii), suggesting that the interaction topology is a good indicator of the presence of groups of shadow banned users on the service.

연구 동기 및 목표

확장 가능한 크롤러를 사용하여 다수의 Twitter 사용자 집단에서 그림자 차단의 유병률을 정량화한다.
설명 가능한 머신 러닝으로 그림자 차단 상태를 예측하는 프로필 특징을 식별한다.
무작위 버그(H0)와 토폴로지 기반 전염 확산(H1)이라는 그림자 차단에 대한 두 가지 경쟁 가설을 시험한다.
차단된 사용자 간의 응집 및 공동 발생 패턴을 이해하기 위해 에고 그래프 토폴로지를 분석한다.

제안 방법

세 가지 차단 유형(Suggestion Ban, Search Ban, Ghost Ban)을 탐지하고 어떤 유형이든 관찰되면 사용자를 차단된 것으로 분류하는 확장 가능한 크롤러를 개발한다.
네 가지 집단(FAMOUS, RANDOM, BOTS, DEPUTEES)에서 데이터를 수집하고 랜드마크를 둘러싼 에고 그래프를 샘플링한다.
Twitter를 상호작용 그래프 G_Twitter로 표현하고 랜드마크에서 깊이 제한된 BFS를 통해 1-2 홉 에고 그래프를 추출한다.
18개의 사용자 프로필 특징을 사용하고 설명 가능한 분류기(Random Forest, AdaBoost, Decision Tree)를 학습시켜 그림자 차단 상태를 예측한다.
SI (Susceptible/Infected) 전염 모델을 p0(초기 감염)와 β(전염) 매개변수로 맞춰 차단의 토폴로지적 응집을 설명한다.

실험 결과

연구 질문

RQ1트위터에서 그림자 차단이 버그(H0)로 일관된 무작위 현상인가, 아니면 상호작용 그래프에서의 국소성 및 응집성을 보이는가(H1)?
RQ2다양한 집단과 에고 그래프에서 그림자 차단 프로필의 유병률은 어느 정도인가?
RQ3어떤 사용자 프로필 특징이 그림자 차단 상태를 가장 잘 예측하며, 이 신호가 차단의 토폴로지 패턴과 얼마나 일치하는가?
RQ4전염과 같은 SI 모델이 관찰된 동반 발생 및 차단의 토폴로지를 얼마나 잘 포착하는가?

주요 결과

그림자 차단된 사용자는 모든 집단과 에고 그래프에서 나타나며, 유병률은 다르게 나타난다(FAMOUS 0.74%, RANDOM 2.34%, BOTS 1.97%, DEPUTEES 0.50%).
차단된 노드의 이웃 중 차단된 비율은 차단되지 않은 노드보다 높아 차단의 토폴로지적 응집을 시사한다.
무작위 버그 가설(H0)은 통계적으로 가능성이 낮으며, 많은 에고 그래프에서 균일 분포 하에 차단의 불가능하게 높은 농도 또는 매우 낮은 비율이 관찰된다.
전염 유사 SI 모델(H1)은 p0 ≈ 0.015 및 β ≈ 0.0955 매개변수로 관찰된 데이터를 잘 맞추며, 차단된 이웃이 차단 가능성을 증가시키는 국소 오염 효과를 시사한다.
18개의 프로필 특징을 사용하는 머신 러닝 예측자는 차단 상태를 예측하는 데 최대 80.6% 정확도(Random Forest)를 달성하여 공용 프로필 데이터에서 의미 있는 신호를 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.