QUICK REVIEW

[논문 리뷰] The Velocity of Censorship: High-Fidelity Detection of Microblog Post Deletions

Tao Zhu, David Phipps|arXiv (Cornell University)|2013. 03. 04.

Internet Traffic Analysis and Secure E-voting참고 문헌 28인용 수 72

한 줄 요약

이 논문은 시간이 지남에 따라 민감한 사용자의 콘텐츠를 체계적으로 모니터링하여 웨이보에서 마이크로블로그 게시글 삭제를 고정밀도로 탐지하는 방법을 제시한다. 분석 결과, 삭제의 30%가 게시 후 5~30분 이내에 발생하며, 90%는 24시간 이내에 발생함을 확인하여 키워드 기반 및 인기 인지 필터링 시스템에 의해 이끌리는 빠른 시간 민감성 검열 메커니즘이 존재함을 시사한다.

ABSTRACT

Weibo and other popular Chinese microblogging sites are well known for exercising internal censorship, to comply with Chinese government requirements. This research seeks to quantify the mechanisms of this censorship: how fast and how comprehensively posts are deleted.Our analysis considered 2.38 million posts gathered over roughly two months in 2012, with our attention focused on repeatedly visiting "sensitive" users. This gives us a view of censorship events within minutes of their occurrence, albeit at a cost of our data no longer representing a random sample of the general Weibo population. We also have a larger 470 million post sampling from Weibo's public timeline, taken over a longer time period, that is more representative of a random sample. We found that deletions happen most heavily in the first hour after a post has been submitted. Focusing on original posts, not reposts/retweets, we observed that nearly 30% of the total deletion events occur within 5- 30 minutes. Nearly 90% of the deletions happen within the first 24 hours. Leveraging our data, we also considered a variety of hypotheses about the mechanisms used by Weibo for censorship, such as the extent to which Weibo's censors use retrospective keyword-based censorship, and how repost/retweet popularity interacts with censorship. We also used natural language processing techniques to analyze which topics were more likely to be censored.

연구 동기 및 목표

중국의 마이크로블로깅 플랫폼인 웨이보와 같은 플랫폼에서 검열의 속도와 범위를 정량화하는 것.
게시물 게시 이후 삭제 시점의 시간적 동역학을 조사하는 것.
검열이 키워드 기반 필터링인지, 게시물 인기 여부에 기반하는지 평가하는 것.
NLP 기법을 활용해 어떤 주제가 더 많이 검열될 가능성이 있는지 분석하는 것.
민감한 사용자에 대한 타겟팅 모니터링 결과와 일반 공개 타임라인 샘플링 결과를 비교하는 것.

제안 방법

저자들은 두 달 동안 민감한 사용자 집합의 콘텐츠를 반복적으로 쿼리하여 약 238만 개의 게시물을 수집함으로써 삭제 탐지의 실시간에 가까운 기능을 구현함.
더 큰 크기의 4억 7천만 개의 공개 타임라인 게시물 데이터셋을 활용해 더 대표성 있는 샘플에서 결과를 검증함.
정기적인 간격으로 반복 쿼리를 통해 게시물 가용성의 변화를 비교함으로써 삭제 이벤트를 식별함.
자연어 처리 기법을 적용하여 주제를 분류하고 주제별 검열 빈도를 평가함.
리트윗 수를 통한 게시물의 확산 정도(바이럴성)와 삭제 가능성 간의 상호작용을 분석함.
과거 키워드 기반 필터링과 시간 기반 삭제 패턴에 대한 가설을 검증하기 위해 통계 모델을 사용함.

실험 결과

연구 질문

RQ1웨이보에서 게시물이 게시된 후 얼마나 빨리 삭제되는가?
RQ2검열이 키워드 일치에 기반하는 정도와 게시물 인기 여부에 기반하는 정도가 어느 정도인가?
RQ3일부 주제가 다른 주제보다 더 많이 검열되는가?
RQ4원본 게시물과 리트윗 간 삭제 비율은 어떻게 다를까?
RQ5민감한 사용자에 대한 타겟팅 모니터링은 공개 타임라인 샘플링에 비해 얼마나 대표성을 갖는가?

주요 결과

모든 삭제 이벤트의 약 30%가 게시물이 최초로 게시된 후 5~30분 이내에 발생함.
모든 삭제의 약 90%가 게시 후 24시간 이내에 발생함.
원본 게시물은 리트윗보다 유의미하게 빨리 삭제됨을 확인하여 별도의 모더레이션 정책이 존재함을 시사함.
검열은 매우 시간 민감하며, 대부분의 삭제가 첫 시간 내에 발생함.
정치, 사회적 불안, 민감한 역사적 사건과 관련된 주제가 비례적으로 더 많이 타겟팅됨.
웨이보가 실시간 키워드 필터링과 함께 후행적 콘텐츠 분석도 수행하며, 후행적 분석이 상당한 역할을 한다고 확인함.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.