Skip to main content
QUICK REVIEW

[논문 리뷰] How Unique and Traceable are Usernames?

Daniele Perito, Claude Castelluccia|arXiv (Cornell University)|2011. 01. 28.
Spam and Phishing Detection참고 문헌 12인용 수 28
한 줄 요약

이 논문은 사용자 이름만을 사용하여 웹 서비스 간 온라인 사용자 신원을 연결하는 방법을 제안한다. 언어학적 엔트로피와 마르코프 모델을 활용해 두 사용자 이름이 동일한 사람을 가리키는 확률을 추정한다. 연구 결과, 특히 엔트로피가 낮은 사용자 이름은 플랫폼 간 사용자를 효과적으로 추적할 수 있으며, 최소한의 데이터로 높은 정밀도의 프로파일링이 가능하다는 것을 밝혀냈다.

ABSTRACT

Suppose you find the same username on different online services, what is the probability that these usernames refer to the same physical person? This work addresses what appears to be a fairly simple question, which has many implications for anonymity and privacy on the Internet. One possible way of estimating this probability would be to look at the public information associated to the two accounts and try to match them. However, for most services, these information are chosen by the users themselves and are often very heterogeneous, possibly false and difficult to collect. Furthermore, several websites do not disclose any additional public information about users apart from their usernames (e.g., discus- sion forums or Blog comments), nonetheless, they might contain sensitive information about users. This paper explores the possibility of linking users profiles only by looking at their usernames. The intuition is that the probability that two usernames refer to the same physical person strongly depends on the "entropy" of the username string itself. Our experiments, based on crawls of real web services, show that a significant portion of the users' profiles can be linked using their usernames. To the best of our knowledge, this is the first time that usernames are considered as a source of information when profiling users on the Internet.

연구 동기 및 목표

  • 추가적인 개인 정보 없이도 사용자 이름을 활용해 다양한 웹 서비스 간 온라인 신원을 연결할 수 있는지 조사하기 위해.
  • 언어학적 엔트로피와 정보 놀라움 정보를 기반으로 사용자 이름의 고유성과 추적 가능성을 추정하는 모델을 개발하기 위해.
  • 다른 서비스에서 다른 사용자 이름을 사용하는 사용자를 확률적 레코드 연결 기법을 통해 연결할 수 있는지 타당성 평가하기 위해.
  • 사용자 이름의 익명성 수준을 평가할 수 있는 실용적 도구를 제공하고, 연구자들이 사용자 이름 기반 프로파일링 위험을 연구할 수 있도록 돕기 위해.

제안 방법

  • 사용자 이름 문자열의 정보 놀라움(엔트로피의 대체 지표)을 계산하기 위해 언어 모델과 마르코프 체인을 사용하여 사용자 이름의 고유성을 추정한다.
  • 언어학적 유사성과 엔트로피를 바탕으로, 서로 다른 서비스에서 온 두 사용자 이름이 동일한 사용자를 가리키는 가능성을 추정하는 확률 모델을 적용한다.
  • 사용자 이름이 서비스 간에 다를 수 있지만 여전히 동일한 사람을 가리킬 수 있는 경우를 다루기 위해 레코드 연결 기법을 활용한다.
  • eBay와 Google에서 수집한 실세계 사용자 이름 데이터셋을 사용하여 모델을 검증하며, 공개 프로필의 크롤링과 분석을 수행한다.
  • 사용자 제공의 사용자 이름에 대해 고유성과 추적 가능성을 계산하는 온라인 도구를 개발하고 배포한다.
  • 데이터 수집 과정에서 실제 웹 서비스 보호 조치를 시뮬레이션하기 위해 레이트 제한 방어 조치(예: CAPTCHA 탐지)를 구현한다.

실험 결과

연구 질문

  • RQ1다른 서비스에서 동일한 사용자 이름을 사용하는 두 사용자가 실제로 동일한 신체적 개인인 가능성은 얼마나 되는가?
  • RQ2엔트로피가 낮은 사용자 이름이 온라인 플랫폼 간에 사용자 고유 식별 또는 연결에 얼마나 효과적으로 활용될 수 있는가?
  • RQ3서비스 간에 약간의 변형이 있는 사용자 이름도 높은 신뢰도로 동일한 사용자로 연결될 수 있는가?
  • RQ4추가적인 사용자 데이터가 없을 경우, 사용자 이름 기반 프로파일링은 다른 신원 연결 기법에 비해 얼마나 효과적인가?
  • RQ5사용자 이름 기반 추적의 실질적 영향은 사용자 개인정보 보호와 익명성에 어떤 영향을 미치는가?

주요 결과

  • 다양한 서비스에서 사용되는 많은 사용자 이름이 엔트로피가 낮아 동일한 사람을 가리킬 가능성이 높으며, 이는 효과적인 플랫폼 간 추적을 가능하게 한다.
  • 사용자 이름이 서비스 간에 약간 다를 경우에도 모델은 동일한 사용자를 연결하는 데 높은 정밀도를 달성한다.
  • Google나 eBay와 같은 대규모 플랫폼의 사용자 이름은 높은 엔트로피를 보이지만, 모델은 여전히 이들 간에 연결 가능한 패턴을 성공적으로 식별한다.
  • 연구는 사용자 이름이 개인 정보가 없이도 프로파일링에 신뢰할 수 있고 널리 이용 가능한 신호로 기능할 수 있음을 입증한다.
  • 연구진은 사용자가 익명성을 해치는 예측 가능한 방식으로 다양한 서비스에서 사용자 이름을 재사용하거나 변형함을 발견했다.
  • 연구자들이 배포한 온라인 도구는 일반적으로 사용되는 많은 사용자 이름이 실질적으로 매우 추적 가능하며 익명성이 떨어짐을 확인시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.