Skip to main content
QUICK REVIEW

[논문 리뷰] What's in a Session: Tracking Individual Behavior on the Web

Mark Meiss, John F. Duncan|arXiv (Cornell University)|2010. 03. 27.
Complex Network Analysis Techniques참고 문헌 21인용 수 33
한 줄 요약

이 논문은 타임아웃 기반 세션 분할의 한계를 극복하기 위해 논리적이고 참조자(referrer)-기반의 웹 세션 정의를 제안한다. 1,000명의 사용자로부터 수집한 4억 건의 HTTP 요청을 분석한 결과, 개인의 브라우징 행동은 로그노멀 분포를 따르는 반면, 집합적 트래픽은 척도 자유(scale-free) 성질을 보인다. 주요 기여는 타임아웃이 적용되더라도 통계적 성질을 유지하는 강력한 세션 분할 알고리즘으로, 실제 사용자 탐색은 단순한 무작위 서핑 모델을 초월해 되돌아오기 또는 분기하는 행동이 필요하다는 점을 드러낸다.

ABSTRACT

We examine the properties of all HTTP requests generated by a thousand undergraduates over a span of two months. Preserving user identity in the data set allows us to discover novel properties of Web traffic that directly affect models of hypertext navigation. We find that the popularity of Web sites -- the number of users who contribute to their traffic -- lacks any intrinsic mean and may be unbounded. Further, many aspects of the browsing behavior of individual users can be approximated by log-normal distributions even though their aggregate behavior is scale-free. Finally, we show that users' click streams cannot be cleanly segmented into sessions using timeouts, affecting any attempt to model hypertext navigation using statistics of individual sessions. We propose a strictly logical definition of sessions based on browsing activity as revealed by referrer URLs; a user may have several active sessions in their click stream at any one time. We demonstrate that applying a timeout to these logical sessions affects their statistics to a lesser extent than a purely timeout-based mechanism.

연구 동기 및 목표

  • 실세계 웹 탐색에서 개인 사용자의 브라우징 행동의 진정한 성격을 이해하기 위해.
  • 하이퍼텍스트 탐색을 모델링하는 데 있어 타임아웃 기반 세션 정의의 타당성을 도전하기 위해.
  • 참조자 URL을 사용하여 보다 정확하고 논리적으로 기반을 둔 세션 분할 방법을 개발하기 위해.
  • 이상 탐지에 사용할 수 있는 인간 사용자와 자동화된 에이gent를 구분하는 통계적 성질을 규명하기 위해.
  • 이러한 발견이 웹 트래픽의 익명화 및 에이gent 기반 모델링에 미치는 영향을 평가하기 위해.

제안 방법

  • 2개월 동안 1,000명의 주거용 사용자로부터 원시 HTTP 요청 로그를 수집하며, 사용자 신원을 유지한다.
  • 참조자 URL을 사용하여 논리적 세션을 정의하고, 사이트 간 전환을 세션 경계로 식별한다.
  • 시간만을 기준으로 하지 않고 참조자 패턴에 기반한 논리적 세션 알고리즘을 적용하여 클릭 스트림을 분할한다.
  • 다양한 타임아웃 임계값 하에서 논리적 세션의 통계적 성질을 비교하여 강건성 평가를 수행한다.
  • 점프 빈도, 브라우징 속도, 포털 사용량과 같은 사용자 수준 지표의 분포를 분석한다.
  • 공백 참조자 요청 비율과 세션 분기 요인의 안정성을 평가하여 모델의 현실성 확보

실험 결과

연구 질문

  • RQ1개인 사용자의 브라우징 행동 분포는 어떻게 되며, 이는 힘의 법칙(power-law) 또는 로그노멀 분포를 따르는가?
  • RQ2사용자 수준의 행동을 집계하면 웹 사이트 트래픽에서 관찰되는 척도 자유(scale-free) 분포가 얼마나 발생하는가?
  • RQ3타임아웃 기반 세션 정의는 실제 사용자 탐색 행동을 정확히 반영할 수 있는가?
  • RQ4포털 사이트는 사용자 탐색을 어떻게 매개하며, 세션 구조에 어떤 영향을 미치는가?
  • RQ5HTTP 요청에서 제공하는 참조자 정보만으로 논리적 세션을 어떻게 정의하고 탐지할 수 있는가?

주요 결과

  • 유니크 방문자 수로 측정한 사이트 인기도는 유계가 없고 중심 경향성이 없으며, 이는 무한한 힘의 법칙 분포를 확인한다.
  • 점프 빈도, 브라우징 속도, 포털 사용량과 같은 개인 사용자 브라우징 지표는 힘의 법칙이 아니라 로그노멀 분포를 따른다.
  • 사용자 행동의 집합적 특성은 척도 자유처럼 보이지만, 이는 로그노멀 사용자 수준 분포의 집합적 결과이다.
  • 단순한 타임아웃 기반 세션 정의는 실제 사용자 탐색을 포착하지 못한다. 왜냐하면 클릭 간 간격에 규칙성이 없기 때문이다.
  • 참조자 URL을 통해 정의된 논리적 세션은 1보다 큰 분기 요인을 보이며, 이는 단순한 무작위 서핑 모델을 초월해 되돌아오기 또는 분기하는 행동이 필요하다는 것을 시사한다.
  • 논리적 세션에 타임아웃을 적용할 경우 순수 시간 기반 세션에 적용할 경우보다 통계적 성질에 미치는 영향이 더 적어, 더 강건함을 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.