[論文レビュー] Anonymity and Identity Online
この論文は EJMR のユーザー名がトピックIDとIPアドレスのSHA-1ハッシュから派生していることを示しており、多くのポストのIPを回復できるとともに、機関を横断して蔓延する有害な内容を明らかにしている。著者は47,630の異なるIPを回収し、約700万件の投稿の66.1%をこれらのIPに割り当て、毒性パターンと投稿行動を分析する。
Economics Job Market Rumors (EJMR) is an online forum and clearinghouse for information on the academic job market for economists. It also includes content that is abusive, defamatory, racist, misogynistic, or otherwise "toxic." Almost all of this content is created anonymously by contributors who receive a four-character username when posting on EJMR. Using only publicly available data we show that the statistical properties of the scheme by which these usernames were generated allows the IP addresses from which most posts were made to be determined with high probability. We recover 47,630 distinct IP addresses of EJMR posters and attribute them to 66.1% of the roughly 7 million posts made over the past 12 years. We geolocate posts and describe aggregated cross-sectional variation -- particularly regarding toxic, misogynistic, and hate speech -- across sub-forums, geographies, institutions, and IP addresses. Our analysis suggests that content on EJMR comes from all echelons of the economics profession, including, but not limited to, its elite institutions.
研究の動機と目的
- EJMR の匿名化スキームは本当にユーザーを匿名化しているか、EJMR の内容が経済学界を反映しているかを評価する。
- サイトのハッシュスキームを用いて、観測された EJMR のユーザー名をIPアドレスに対応付ける。
- IPの起源とトピックごとに、有害・女嫌悪・憎悪表現の普及と分布を定量化する。
- 投稿行動が機関所属と注目度による参加にどう関連するかを検討する。
提案手法
- EJMR のユーザー名スキームを反転させるためにGPU加速SHA-1ハッシュを開発し、各トピック-ユーザー名ペアに対して候補IPアドレスを回復する。
- 各トピックごとに全2^32のIPv4アドレスを列挙し、それらが観測されたユーザー名を生成するかを検証する。SHA-1の avalanche および一様性特性を活用する。
- 投稿ごとに約65kの候補の中から真のIPを特定するため、ノイズの統計検定を適用し、偽陽性を最小化する。
- テキストの難読化を解き、トランスフォーマーモデルを用いて投稿を有害・女権侵害・憎悪表現として分類する。
- 回収したIPを地理的に位置付け、投稿活動の地理的・機関的分布を分析する。)

実験結果
リサーチクエスチョン
- RQ1EJMR のユーザー名は投稿IPアドレスを明らかにし、匿名性の主張と矛盾しているのか?
- RQ2回復できるIPアドレスはいくつで、これらのIPに結びつくEJMR投稿の割合はどれくらいか?
- RQ3投稿の地理的・機関的パターンは何で、グループ間で有害な内容の普及度はどれくらいか?
- RQ4新しいトピックへの初期の注目は、同じIPによる長期的な投稿活動と関連があるか?
- RQ5コンテンツの有害性は、他の匿名オンラインフォーラム(例: Reddit)とどう比較されるか?
主な発見
- 47,630の異なるIPアドレスを回収し、約700万件のEJMR投稿の66.1%をこれらのIPに割り当てた。
- 2022年の月間平均投稿は約70,000件で、投稿は米国の大都市および国際的な大都市に集中していた。
- テキスト分析により、投稿の約11.8%が有害、3.3%が女嫌悪、3.1%が憎悪表現であることが分かった。
- 有害および女嫌悪的な内容は、居住用IPと大学のIPの両方に由来し、分布の差はごくわずかだった。
- 経済学プログラムの規模が大きく、ランクの高い大学ほど投稿が多かったが、平均的な有害性は大学の特徴によって有意に異ならなかった。
- 新しいトピックへの初期の注目は、以降の日々に同じIPによる投稿を増やすことを予測しており、内発的な関心が参加を促していることを示唆している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。