[論文レビュー] The Velocity of Censorship: High-Fidelity Detection of Microblog Post Deletions
本稿では、時間経過に伴い感受性の高いユーザーのコンテンツを体系的にモニタリングすることにより、Weiboにおけるマイクロブログ投稿の削除を高精細度で検出する手法を提示する。その結果、投稿後5〜30分以内に削除される投稿が30%にのぼり、24時間以内に90%が削除されることから、キーワードベースおよび人気度を考慮したフィルタリングシステムによって駆動される、迅速で時間に敏感な検閲メカニズムが存在することが示された。
Weibo and other popular Chinese microblogging sites are well known for exercising internal censorship, to comply with Chinese government requirements. This research seeks to quantify the mechanisms of this censorship: how fast and how comprehensively posts are deleted.Our analysis considered 2.38 million posts gathered over roughly two months in 2012, with our attention focused on repeatedly visiting "sensitive" users. This gives us a view of censorship events within minutes of their occurrence, albeit at a cost of our data no longer representing a random sample of the general Weibo population. We also have a larger 470 million post sampling from Weibo's public timeline, taken over a longer time period, that is more representative of a random sample. We found that deletions happen most heavily in the first hour after a post has been submitted. Focusing on original posts, not reposts/retweets, we observed that nearly 30% of the total deletion events occur within 5- 30 minutes. Nearly 90% of the deletions happen within the first 24 hours. Leveraging our data, we also considered a variety of hypotheses about the mechanisms used by Weibo for censorship, such as the extent to which Weibo's censors use retrospective keyword-based censorship, and how repost/retweet popularity interacts with censorship. We also used natural language processing techniques to analyze which topics were more likely to be censored.
研究の動機と目的
- 中国のマイクロブログプラットフォーム(Weiboなど)における検閲の速度と範囲を定量化すること。
- 投稿公開後の削除の時間的ダイナミクスを調査すること。
- 検閲がキーワードベースのフィルタリングか、投稿の人気度に起因するかを評価すること。
- 自然言語処理技術を用いて、どのトピックがより検閲されやすいかを分析すること。
- 感受性の高いユーザーに対する標的モニタリングの結果と、より広範なパブリックタイムラインサンプリングの結果を比較すること。
提案手法
- 著者らは、2か月間にわたり感受性の高いユーザーのセットに対して繰り返しクエリを実行し、238万件の投稿を収集することで、ほぼリアルタイムでの削除検出を可能にした。
- さらに、4億7000万件のパブリックタイムライン投稿のより大きなデータセットを用いて、より代表的なサンプルにおける発見の妥当性を検証した。
- 削除イベントは、定期的なインターバルで繰り返しクエリを実行し、投稿の可用性の変化を比較することで同定した。
- 自然言語処理を用いてトピックを分類し、主題ごとの検閲頻度を評価した。
- リツイート数による投稿の拡散度(バズ性)と削除確率の関係を分析した。
- 過去のキーワードフィルタリングと時間に基づく削除パターンに関する仮説を検証するため、統計モデルを用いた。
実験結果
リサーチクエスチョン
- RQ1Weiboでは、投稿後どの程度の速さで削除が行われるのか?
- RQ2検閲はどの程度、キーワード一致によるものか、投稿の人気度に起因するのか?
- RQ3特定のトピックは他のトピックよりも検閲されやすいのか?
- RQ4オリジナル投稿とリツイートの間で削除率にどのような差があるのか?
- RQ5パブリックタイムラインサンプリングと比較して、感受性の高いユーザーに対する標的モニタリングはどの程度代表的なのか?
主な発見
- すべての削除イベントの約30%が、投稿の初回公開後5分から30分の間に発生した。
- すべての削除の約90%が、投稿後24時間以内に発生した。
- オリジナル投稿はリツイートよりも著しく速く削除されており、これは異なるモデレーションポリシーを示している。
- 検閲は非常に時間に敏感であり、大多数の削除が最初の1時間以内に発生した。
- 政治、社会的動乱、感受性の高い歴史的出来事に関連するトピックが、顕著に標的とされている。
- 本研究では、Weiboがリアルタイムのキーワードフィルタリングと、後続のコンテンツ分析を併用しており、後者も顕著な役割を果たしていることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。