QUICK REVIEW

[論文レビュー] How Unique and Traceable are Usernames?

Daniele Perito, Claude Castelluccia|arXiv (Cornell University)|Jan 28, 2011

Spam and Phishing Detection参考文献 12被引用数 28

ひとこと要約

本稿では、ユーザー名のみを用いて、オンラインサービス間でのユーザーIDの関連付けを可能にする手法を提案する。言語的エントロピーとマルコフモデルを活用し、2つのユーザー名が同じ人物を指している確率を推定する。本研究では、特にエントロピーが低いユーザー名が、プラットフォーム間でユーザーを的確に追跡可能であることが判明し、最小限のデータで高精度なプロファイリングが可能であることが示された。

ABSTRACT

Suppose you find the same username on different online services, what is the probability that these usernames refer to the same physical person? This work addresses what appears to be a fairly simple question, which has many implications for anonymity and privacy on the Internet. One possible way of estimating this probability would be to look at the public information associated to the two accounts and try to match them. However, for most services, these information are chosen by the users themselves and are often very heterogeneous, possibly false and difficult to collect. Furthermore, several websites do not disclose any additional public information about users apart from their usernames (e.g., discus- sion forums or Blog comments), nonetheless, they might contain sensitive information about users. This paper explores the possibility of linking users profiles only by looking at their usernames. The intuition is that the probability that two usernames refer to the same physical person strongly depends on the "entropy" of the username string itself. Our experiments, based on crawls of real web services, show that a significant portion of the users' profiles can be linked using their usernames. To the best of our knowledge, this is the first time that usernames are considered as a source of information when profiling users on the Internet.

研究の動機と目的

追加の個人情報がなければ、オンラインサービス間でユーザーIDを関連付けるためにユーザー名が使用可能かどうかを調査すること。
言語的エントロピーと情報の驚き（surprisal）に基づいて、ユーザー名の独自性と追跡可能性を推定するモデルの開発。
確率的レコードリンケージ手法を用いて、異なるサービスで異なるユーザー名を用いるユーザーが同一人物である可能性を評価する可能性の検証。
ユーザーが自身のユーザー名の匿名性を評価できる実用的ツールの提供、および研究者がユーザー名ベースのプロファイリングリスクを研究できるようにすること。

提案手法

言語モデルとマルコフ連鎖を用いて、ユーザー名文字列の情報の驚き（エントロピーの代理指標）を計算し、その独自性を推定する。
言語的類似性とエントロピーに基づき、異なるサービスからの2つのユーザー名が同一人物を指している確率を推定する確率的モデルを適用する。
ユーザー名が異なるが、同一人物を指している可能性があるケースに対処するため、レコードリンケージ技術を活用する。
eBayとGoogleの公開プロファイルのクローリングと分析を通じて、実世界のユーザー名データセットを用いてモデルを検証する。
研究者が提供したユーザー名の独自性と追跡可能性を計算するオンラインツールを開発・公開する。
データ収集中に現実のWebサービス保護対策を模擬するため、レート制限防御（例：CAPTCHA検出）を実装する。

実験結果

リサーチクエスチョン

RQ1異なるサービスで同じユーザー名を用いる2人のユーザーが、実際には同一の人物である確率はどの程度か？
RQ2エントロピーが低いユーザー名は、どの程度の範囲でオンラインプラットフォーム間でユーザーを一意に特定または関連付けるために利用可能か？
RQ3サービス間でわずかに異なるユーザー名でも、高い信頼性で同一ユーザーと関連付けることは可能か？
RQ4追加のユーザー情報が入手できない状況下で、ユーザー名ベースのプロファイリングは他のアイデンティティ関連付け手法に比べてどの程度効果的か？
RQ5ユーザー名ベースの追跡が、ユーザーのプライバシーや匿名性に及ぼす実用的影響は何か？

主な発見

多くのサービスで使用されるユーザー名の大部分はエントロピーが低く、結果として同一人物を指している可能性が非常に高い。このため、プラットフォーム間での追跡が効果的に可能である。
ユーザー名がわずかに異なる場合でも、同一人物を指していると推定する際の精度が非常に高い。
Google や eBay のような大手プラットフォームのユーザー名は高いエントロピーを示すが、モデルは依然としてそれらの間で関連可能なパターンを効果的に同定した。
本研究では、個人情報が入手できない状況下でも、ユーザー名がプロファイリングのための信頼性の高い、広く利用可能なシグナルであることが示された。
研究者たちは、ユーザーがサービス間でユーザー名を再利用したり、予測可能な方法で変更したりする傾向があることを発見し、匿名性の維持が困難であることが判明した。
研究者が公開したオンラインツールは、一般的に使用される多くのユーザー名が実際には非常に追跡可能であり、匿名ではないことを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。