[论文解读] How Unique and Traceable are Usernames?
本文提出一种仅使用用户名来跨网络服务关联在线用户身份的方法,利用语言熵和马尔可夫模型估算两个用户名指向同一人的概率。研究发现,用户名——尤其是低熵用户名——可有效追踪用户跨平台活动,实现高精度画像分析,且所需数据极少。
Suppose you find the same username on different online services, what is the probability that these usernames refer to the same physical person? This work addresses what appears to be a fairly simple question, which has many implications for anonymity and privacy on the Internet. One possible way of estimating this probability would be to look at the public information associated to the two accounts and try to match them. However, for most services, these information are chosen by the users themselves and are often very heterogeneous, possibly false and difficult to collect. Furthermore, several websites do not disclose any additional public information about users apart from their usernames (e.g., discus- sion forums or Blog comments), nonetheless, they might contain sensitive information about users. This paper explores the possibility of linking users profiles only by looking at their usernames. The intuition is that the probability that two usernames refer to the same physical person strongly depends on the "entropy" of the username string itself. Our experiments, based on crawls of real web services, show that a significant portion of the users' profiles can be linked using their usernames. To the best of our knowledge, this is the first time that usernames are considered as a source of information when profiling users on the Internet.
研究动机与目标
- 探究仅凭用户名在无额外个人信息的情况下,是否可实现跨不同网络服务的在线身份关联。
- 开发一种基于语言熵与信息意外度(surprisal)的模型,以估算用户名的独特性与可追踪性。
- 评估在无额外用户数据的情况下,利用概率记录关联技术将不同服务中不同用户名关联至同一用户的可能性。
- 为用户提供评估其用户名匿名性的实用工具,同时为研究人员提供研究基于用户名的画像风险的工具。
提出的方法
- 使用语言模型与马尔可夫链计算用户名字符串的信息意外度(作为熵的代理指标),以估算其独特性。
- 应用概率模型计算来自不同服务的两个用户名指向同一用户的概率,基于语言相似性与熵值。
- 采用记录关联技术处理用户名在不同服务中存在差异但可能指向同一用户的情况。
- 使用从eBay和Google收集的真实用户名数据集对模型进行验证,通过爬取与分析公开用户资料完成。
- 开发并发布一个在线工具,用于计算用户提供的用户名的独特性与可追踪性。
- 在数据收集过程中,通过实现速率限制防御机制(如CAPTCHA检测)模拟真实网络服务的防护措施。
实验结果
研究问题
- RQ1在不同服务中拥有相同用户名的两个用户,其为同一物理个体的可能性有多大?
- RQ2低熵用户名在多大程度上可用于唯一识别或跨在线平台关联用户?
- RQ3在不同服务中存在细微差异的用户名,是否仍能以高置信度关联至同一用户?
- RQ4在缺乏额外用户数据的情况下,基于用户名的画像技术相较于其他身份关联方法的效率如何?
- RQ5基于用户名的追踪对用户隐私与匿名性具有何种实际影响?
主要发现
- 跨服务的大量用户名具有低熵特征,因此极有可能指向同一用户,从而实现高效的跨平台追踪。
- 即使用户名在不同服务中存在细微差异,该模型在关联指向同一用户的用户名时仍表现出高精度。
- 来自Google和eBay等大型平台的用户名虽熵值较高,但模型仍能成功识别其间的可关联模式。
- 本研究证明,用户名可作为可靠且广泛可用的信号,用于用户画像,即使无法获取个人详细信息。
- 研究人员发现,用户在不同服务中常以可预测的方式重复使用或变体化用户名,从而削弱了匿名性。
- 作者发布的在线工具证实,许多常用用户名在实践中高度可追踪,不具备真正的匿名性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。