[论文解读] Anonymity and Identity Online
论文证明 EJMR 用户名来自 topic IDs 和 IP 地址的 SHA-1 哈希,可恢复大量帖子中的 IP,并揭示跨机构的普遍有害内容。它恢复了 47,630 个不同的 IP,分配给约 66.1% 的约 7 million posts,并分析了毒性模式和发帖行为。
Economics Job Market Rumors (EJMR) is an online forum and clearinghouse for information on the academic job market for economists. It also includes content that is abusive, defamatory, racist, misogynistic, or otherwise "toxic." Almost all of this content is created anonymously by contributors who receive a four-character username when posting on EJMR. Using only publicly available data we show that the statistical properties of the scheme by which these usernames were generated allows the IP addresses from which most posts were made to be determined with high probability. We recover 47,630 distinct IP addresses of EJMR posters and attribute them to 66.1% of the roughly 7 million posts made over the past 12 years. We geolocate posts and describe aggregated cross-sectional variation -- particularly regarding toxic, misogynistic, and hate speech -- across sub-forums, geographies, institutions, and IP addresses. Our analysis suggests that content on EJMR comes from all echelons of the economics profession, including, but not limited to, its elite institutions.
研究动机与目标
- 评估 EJMR 匿名化方案是否真正保护用户隐私,以及 EJMR 内容是否反映经济学专业领域。
- 依据站点的哈希方案,将观察到的 EJMR 用户名映射到 IP 地址。
- 量化来自 IP 起源和主题的有毒、厌女和仇恨言论的普遍性与分布。
- 考察发帖行为与机构隶属及对关注度驱动的参与之间的关系。
提出的方法
- 开发 GPU 加速的 SHA-1 哈希以反转 EJMR 的用户名方案并为每个主题-用户名对恢复候选 IP 地址。
- 对每个主题枚举所有 2^32 的 IPv4 地址以测试它们是否产生观测到的用户名,利用 SHA-1 的 Avalanche 与均匀性特性。
- 对每条帖子的大约 65k 个候选 IP 进行噪声的统计检验,以识别真实 IP 并尽量减少假阳性。
- 去混淆文本并使用 Transformer 模型将帖子分类为有毒、厌女或仇恨言论。
- 对恢复的 IP 进行地理定位,以分析发帖活动的地理与机构分布。

实验结果
研究问题
- RQ1 EJMR 用户名是否揭示了发帖 IP 地址,与匿名性主张相矛盾?
- RQ2能够恢复多少个 IP 地址,以及大约有多少比例的 EJMR 帖子能与这些 IP 绑定?
- RQ3发帖的地理与机构模式是什么,有多普遍的有害内容在各群体之间?
- RQ4对新话题的初始关注是否与同一 IP 在随后几天的发帖活动相关?
- RQ5与其他匿名在线论坛(如 Reddit)相比,内容的有害性有何不同?
主要发现
- 恢复了 47,630 个不同的 IP 地址,并将约 66.1% 的 ~7 million EJMR 帖子归属于这些 IP。
- 2022 年月均 EJMR 发帖约为 70,000 次,发帖主要集中在美國大型城市及国际大城市。
- 文本分析发现约 11.8% 的帖子有毒,3.3% 厌女,3.1% 仇恨言论。
- 有毒与厌女内容来自住宅性 IP 与大学 IP,分布差异仅有适度。
- 具有更大经济学项目与更高排名的大学发帖更多,但平均有害性并未因大学特征显著不同。
- 对新话题的初始关注会预测同一 IP 在随后的日子里有更多发帖,表明内在关注驱动参与。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。